CN116883466A - 基于位置感知的光学与sar图像配准方法、装置及设备 - Google Patents
基于位置感知的光学与sar图像配准方法、装置及设备 Download PDFInfo
- Publication number
- CN116883466A CN116883466A CN202310845110.7A CN202310845110A CN116883466A CN 116883466 A CN116883466 A CN 116883466A CN 202310845110 A CN202310845110 A CN 202310845110A CN 116883466 A CN116883466 A CN 116883466A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- images
- sar
- registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000009466 transformation Effects 0.000 claims abstract description 184
- 238000000605 extraction Methods 0.000 claims abstract description 67
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims description 179
- 230000006870 function Effects 0.000 claims description 66
- 238000011176 pooling Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 240000004282 Grewia occidentalis Species 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000011282 treatment Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 abstract description 6
- 238000013507 mapping Methods 0.000 abstract description 3
- 230000008447 perception Effects 0.000 abstract description 3
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000005855 radiation Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于位置感知的光学与SAR图像配准方法、装置及设备,通过利用异源图像配准网络对光学参考图像以及SAR图像进行图像配准,在该网络中,将输入的两个图像在通道方向进行叠加后,再通过融合了坐标注意力的多尺度特征提取单元得到包含位置信息的深度特征表达,为了进一步提高特征的定位能力,通过多尺度特征融合单元对不同层级的深度特征图进行有效聚合,获得同时具有深层语义表征能力以及精确定位信息的代表性特征,最后利用全连接层进行几何变换参数的映射,并通过空间变换模块对待配准图像进行仿射变换得到配准后图像。采用本方法可提高异源图像配准的精准度的同时提高了配准的实时性。
Description
技术领域
本申请涉及异源图像配准技术领域,特别是涉及一种基于位置感知的光学与SAR图像配准方法、装置及设备。
背景技术
光学图像与合成孔径雷达(Synthetic Aperture Radar,SAR)等图像是对地观测所获取的两种主要数据源,其反映的地物特征信息存在明显的互补性。通过结合光学与SAR图像的特性进行融合分析,在变化检测、地物分类、目标识别等方面具有重要的应用前景,而图像配准是融合分析实现的重要技术前提。图像配准技术广泛应用于弹载景象匹配制导、飞行器定位导航及地物变化检测等任务,如何实现精度高、实时性强的图像配准是该领域当前的研究重点之一。由于成像机理迥异,除了同源图像之间存在的几何结构、旋转、分辨率等差异外,光学图像与SAR图像之间还存在显著的非线性灰度畸变,适用于同源图像配准的方法基本失效。
近年来,针对异源遥感图像配准问题,诸多行之有效的方法被相继提出,主要分为传统方法和基于深度学习的方法两大类。但是,这两种方法多存在包括图像场景泛化性能不够强,实时性较差等问题。
发明内容
基于此,有必要针对上述技术问题,提供一种至少能够解决其中一个问题的基于位置感知的光学与SAR图像配准方法、装置及设备。
一种基于位置感知的光学与SAR图像配准方法,所述方法包括:
获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
对所述配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
在其中一实施例中,所述融合坐标注意力的多尺度特征提取单元包括依次连接的三个融合了坐标注意力的特征提取层,分别为第一特征提取层、第二特征提取层以及第三特征提取层;
将所述通道叠加图像输入所述第一特征提取层,提取得到浅层特征图像;
将所述浅层特征图像输入所述第二特征提取层,提取得到中层特征图像;
将所述中层特征图像输入所述第三特征提取层,提取得到深层特征图像。
在其中一实施例中,所述融合坐标注意力的多尺度特征提取单元中的各特征提取层均包括Res2Net模块以及坐标注意力机制模块;
输入各特征提取层的不同尺度特征图像通过所述Res2Net模块提取得到高级语义特征;
所述高级语义特征再通过所述坐标注意力机制模块提取更深层的特征图像。
在其中一实施例中,在所述特征融合单元中:
分别对所述浅层特征图像、中层特征图像以及深层特征图像进行不同处理,将不同尺度的特征图像变换到空间大小与所述浅层特征图像相同,通道数与所述深层特征图像相同;
将进行空间和通道变换处理后的特征图像进行相加,并将相加结果依次通过坐标注意力机制模块以及第四特征提取层进行深度特征融合得到所述特征融合图像。
在其中一实施例中,所述分别对所述浅层特征图像、中层特征图像以及深层特征图像进行不同处理包括:
利用1×1卷积对所述浅层特征图像的通道数进行扩展;
利用1×1卷积对所述中层特征图像的通道数进行扩展后,再进行两倍上采样处理;
利用全局自适应平均池化对所述深层特征图像进行处理后,再利用1×1卷积对数进行扩展。
在其中一实施例中,根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数真值标签构建得到损失函数包括:
根据所述训练配准后图像以及该训练数据对中的光学图像之间的相似性度量为基础,构建相似度损失函数;
根据所述训练变换参数以及对应的变换参数真值标签构建四角偏移损失函数;
根据所述相似度损失函数以及四角偏移损失函数得到总损失函数。
在其中一实施例中,在得到所述训练后的异源图像配准网络时,将所述空间变换单元嵌入至该网络中;
将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到基于所述光学参考图像进行配准的配准后SAR图像。
一种基于位置感知的光学与SAR图像配准装置,所述装置包括:
配准数据集获取模块,用于获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
训练数据对构建模块,用于对所述配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
训练变换参数得到模块,用于将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
训练配准后图像得到模块,用于将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
损失函数构建模块,用于根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
异源图像配准网络训练模块,用于根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
异源图像配准模块,用于获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
对所述配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
对所述配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
上述基于位置感知的光学与SAR图像配准方法、装置及设备,通过利用异源图像配准网络对光学参考图像以及SAR图像进行图像配准,在该网络中,将输入的两个图像在通道方向进行叠加后,再通过融合了坐标注意力的多尺度特征提取单元得到包含位置信息的深度特征表达,为了进一步提高特征的定位能力,通过多尺度特征融合单元对不同层级的深度特征图进行有效聚合,获得同时具有深度语义表征能力以及精确定位信息的代表性特征,最后利用全连接层进行几何变换参数的映射,并通过空间变换模块对待配准图像进行仿射变换得到配准后图像。采用本方法可提高异源图像配准的精准度的同时提高了配准的实时性。
附图说明
图1为一个实施例中基于位置感知的光学与SAR图像配准方法的流程示意图;
图2为一个实施例中异源图像配准网络训练过程示意框图;
图3为一个实施例中融合坐标注意力的多尺度特征提取单元的结构示意图;
图4为一个实施例中特征融合单元的结构示意图;
图5为一个实施例中基于位置感知的光学与SAR图像配准装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术中,对于存在显著几何差异和辐射差异的光学与SAR图像配准问题,传统方法与目前基于深度学习的配准算法大多依赖于特征点检测与匹配来实现,但由于场景区域不同,容易出现误匹配点多或有效同名点不足以致配准失效的情况,在本方法中,如图1所示,提供了一种基于位置感知的光学与SAR图像配准方法,包括以下步骤:
步骤S100,获取配准数据集,该配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
步骤S110,对配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将SAR训练图像与对应的光学图像组成训练数据对;
步骤S120,将训练数据对输入至异源图像配准网络中,在异源图像配准网络中,训练数据在通道方向上进行叠加后得到通道叠加图像,通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
步骤S130,将SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
步骤S140,根据训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
步骤S150,根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
步骤S160,获取待进行配准的SAR图像以及光学参考图像,将待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
在本实施例中,提出了一种强化位置感知的一体化配准框架,该配准框架也就是上述方法中的异源图像配准网络,在该框架内,输入的图像对在通道方向叠加,通过融合坐标注意力的多尺度特征提取层得到包含位置信息的深度特征表达,为了进一步提高特征的定位能力,通过多尺度特征融合层(Multi-Scale Feature Fusion,MSFF)对不同层级的深度特征图进行有效聚合,获得同时具有深层语义表征能力以及精确定位信息的代表性特征,最后利用全连接层进行几何变换参数的映射,并通过空间变换模块(SpatialTransformer,ST))对待配准图像进行仿射变换得到配准后图像。该配准框架在在无特征点检测的情况下,自动学习待配准图像对之间的几何关系,直接输出配准结果,无需进行迭代后处理,且消除了对特征点的依赖,适用于各种不同图像场景区域。
在本实施例中,步骤S100至步骤S150为对异源图像配准网络进行训练的过程,而步骤S160为利用训练好的异源图像配准网络进行图像配准的过程。
步骤S100-步骤S110为对训练数据进行准备的过程,其中,配准数据集中为已经预先匹配好的光学图像及SAR图像对,所以不能直接将其作为训练数据。在本方法中,将已经匹配好的图像对中的SAR图像进行随机仿射变换后,得到图像各角度变换后的训练SAR图像,将训练SAR图像与对应的光学图像组成训练数据对,并以此得到多个训练数据对神经网络进行训练。在对SAR图像进行随机仿射变换的同时还可以得到变换参数的真值标签,用于后续计算损失函数。
在步骤S120中,将训练数据对中的两张图像同时输入异源图像配准网络中对其进行训练,其中,训练数据对在该网络中的处理过程如图2所示。
在本实施例中,异源图像配准网络包括依次连接的融合坐标注意力的多尺度特征提取单元以及特征融合单元。
在本实施例中,训练数据对中的SAR训练图像以及光学图像首先在通道方向进行叠加,得到通道叠加图像,再将该通道叠加图像输入融合坐标注意力的多尺度特征提取单元进行特征提取。
在本实施例中,融合坐标注意力的多尺度特征提取单元包括依次连接的三个融合了坐标注意力的特征提取层,分别为第一特征提取层、第二特征提取层以及第三特征提取层。将通道叠加图像输入所述第一特征提取层,提取得到浅层特征图像,将浅层特征图像输入第二特征提取层,提取得到中层特征图像,将中层特征图像输入第三特征提取层,提取得到深层特征图像。
在本实施例中,融合坐标注意力的多尺度特征提取单元中的各特征提取层均包括Res2Net模块(Res2Net module)以及坐标注意力机制模块(Coordinate Attention,CA)。输入各特征提取层的不同尺度特征图像通过Res2Net模块提取得到高级语义特征,该高级语义特征再通过坐标注意力机制模块提取位置信息敏感的特征图像。
具体的,卷积网络所提取的深层语义信息一定程度上能够适应光学和SAR图像的辐射差异,且特征感受野的适当扩充,更有利于异源图像深层特征语义的表征。然而随着卷积网络层数的加深,特征定位依赖的位置信息有所丢失。因此,为提取具有较强泛化能力以及位置信息的语义特征,在本方法中采用具备多尺度特征表示能力的Res2Net网络结构Error!Reference source not found.来提取输入图像对的深层语义信息,并通过融合坐标注意力机制(Coordinate Attention,CA),显式地对特征位置信息进行精确建模,提升特征定位能力。
Res2Net是ResNet的变体网络,以多个Res2Net module级联的方式实现深度特征提取,也就是呈现金字塔方式的多尺度特征提取。Res2Net module是对普通ResNet架构使用的bottleneck block的重建,通过在单个残差块内构建分层的特征组并进行类残差连接,以取代通用的3×3卷积核组,扩大网络层的感受野。
如图3左侧所示,具体来说,在输入特征图经过1×1卷积后,将其按通道数均匀分割成n个特征子集,即每个子集空间大小相同,通道数为1/n。除x1之外,每个x1都有对应的3×3卷积组Ht,将经过Ht的输出特征记为yt,则块内的类残差连接可表述为:特征子集xt与前一组的输出yt-1相加,经过卷积组Ht后得到该组输出yt,相应的数学表达为:
在上述过程重复多次后,最后将来自所有卷积组的输出特征图{y1,y2,...yn}进行拼接,再次经过1×1卷积,以实现特征信息的充分融合。由于组合效应,yt具有比xt更大的感受野,等效感受野增加,重新拼接后产生细粒度的多尺度特征。
经过上述的Res2Net module进行特征提取,可获得较为抽象的高级语义特征。但由于卷积、池化等操作,通常来说,这种语义特征所包含的特征信息对于位置的敏感性不强,特征定位精度较差。然而,与分类和场景识别等任务不同,由于本方法对特征的精确位置信息具有较高的需求。因此,为驱使网络进一步提取有利于输入图像对空间关系映射的重要信息,探索特征间的空间位置关系,引入坐标注意力机制(Coordinate Attention,CA)对Res2Net module进行改进,具体结构如图3所示,其结构如图3右侧所示。
具体的,在CA模块中,通过对输入特征x分别进行X、Y方向的一维全局自适应池化,将水平和垂直方向的输入特征聚合为两个相互独立的方向感知特征图,以在获取沿某一方向的远程依赖关系的同时,保留沿另一方向的精确位置信息。该过程称之为坐标信息嵌入,可理解为对通道关系和空间长程依赖关系的特征编码,相应数学表达为:
在公式(2)中,分别为高度h、宽度w的第c个通道的输出,为了有效利用信息嵌入过程中获取的表征信息,需要对上述的两个方向感知特征图进行变换,生成坐标注意力图。
进一步的,首先将特征图zh、zw进行级联,并使用1×1卷积变换K1得到中间特征图f,即:
f=δ(K1([zh,zw])) (3)
在公式(3)中,δ表示非线性激活单元(ReLu),按空间维度将其分割为及/>通过1×1卷积统一通道数,使其与输入通道数相同,得到注意力权重如下:
在公式(4)中,σ为激活函数(Sigmoid)。将gh和gw作为注意力权重,与输入特征x相乘,即可得到最终输出:
通过结合Res2Net module的多尺度特征提取能力及坐标注意力的位置感知能力,特征提取模块可以自动地学习图像间特征的空间位置信息,帮助网络更加精确地捕捉图像间存在的几何变换关系。
一般来说,深度卷积神经网络在架构设计中遵循特征图空间大小逐步减小的方式,来获取用于预测的高级语义特征,这些特征具有较大的感受野和丰富的语义信息,但分辨率较低,忽略了图像边缘、角点等辅助图像配准的定位信息。若采取浅层特征预测,特征图的分辨率虽然较高,但其中的干扰信息也较多,尤其是对于具有显著非线性灰度差异的光学与SAR图像来说,浅层特征中可用于配准对应的异源图像不变语义信息十分有限。与此同时,浅层特征的感受野较小,将导致全局信息的丢失。因此,在本方法中将Res2Netlayer1_CA(第一特征提取层)、Res2Net layer2_CA(第二特征提取层)及Res2Net layer3_CA(第三特征提取层)的输出特征图F1,F2,F3组成特征金字塔,输入多尺度特征融合模块MSFF,以聚合层级的多尺度局部信息和全局信息,在对异源图像深层语义信息表达良好的同时,捕获一定程度的位置信息,提升配准精度,具体结构如图4所示。
在特征融合单元中:分别对浅层特征图像、中层特征图像以及深层特征图像进行不同处理,将不同尺度的特征图像变换到空间大小与所述浅层特征图像相同,通道数与深层特征图像相同。将进行空间和通道变换处理后的特征图像进行相加,并将相加结果依次通过坐标注意力机制模块以及第四特征提取层进行深度特征融合得到所述特征融合图像。
进一步的,浅层特征图F1空间大小较大,通道数较少,包含有利于定位的浅层特征信息,而深层特征图F3空间较小,通道数较多,包含区分性的语义信息。因此,在融合的同时,为防止特征信息丢失及分辨率降低,本文分别对特征图F1,F2,F3进行不同的变换得到空间大小与F1相同,通道数与深层特征图F3相同的特征图
具体地,深层特征图F3特征图利用1×1卷积扩展通道数得到特征图中层特征图F2利用1×1卷积扩展通道数后进行两倍上采样得到特征图/>而深层特征图F3,首先利用全局自适应平均池化得到全局特征信息,进行1×1卷积变换后进行扩展得到特征图得到上述特征图后,最直接的做法是将/>组合在一起简单相加,但该做法带来的增益十分有限,甚至更差,这是因为不同尺度层级的特征图之间存在语义鸿沟,其中的语义信息可能会互相干扰。为此,在本方法中,将特征图/>相加后的结果特征输入坐标注意力模块,后再输入改进的Res2Net layer4_CA(也就是第四特征提取层中),将前述的层级特征进一步深度融合。其中,第四特征提取层的结构与融合坐标注意力的多尺度特征提取单元中的各特征提取层的结构类似。由于,在本方法中用于特征提取的Res2Netmodule具有细粒度的多尺度特征表示能力,融合坐标注意力后嵌入精确的位置信息,而MSFF通过融合不同层级的多尺度特征图,聚合局部和全局信息,保证了输出特征的分辨率,缓解了浅层定位信息的丢失。通过两者的组合,提升了特征的识别能力和位置感知能力,为空间变换关系的回归映射提供有效依据。将MSFF输出的特征图进行全局自适应平均池化,然后送入参数回归网络,可得到最终的空间变换参数,在步骤S130中,利用空间变换模块根据得到的训练变换参数对SAR训练图像进行仿射变换,可获得配准后训练图像。
在步骤S140中,根据训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数真值标签构建得到损失函数包括:根据训练配准后图像以及该训练数据对中的光学图像之间的相似性度量为基础,构建相似度损失函数。根据训练变换参数以及对应的变换参数真值标签构建四角偏移损失函数,最后,根据相似度损失函数以及四角偏移损失函数得到总损失函数。
具体的,在根据训练变换参数以及对应的变换参数真值标签构建四角偏移损失函数时,其中,变换参数真值标签是对配准数据集中的SAR图像进行随机仿射变换得到的,其过程为:假设光学参考图像为IR,对应配准好的SAR图像为IT,经过随机变换ΘT→S后的SAR图像为IS,此处有ΘR→S=ΘT→S,则参考图像IR与待配准图像IS的空间位置关系为:
在公式(6)中,(u,v)∈IR,(u′,v′)∈IS为对应图像中像素点的坐标。在对网络参数进行迭代更新时,由于变换参数Θ混合了旋转、平移及尺度等分量,且这些分量有不同的量纲,因此若直接通过最小化仿射参数真值与网络预测的变换参数/>之间的均方误差来进行优化,旋转、尺度与平移分量之间难以平衡,网络较难收敛。
因此,在本方法中对仿射参数进行四点参数化,设图像IR的角点为CR={(xi,yi),i=1,2,3,4},经仿射变换ΘR→S后得到对应点坐标CS={(xi′,yi′),i=1,2,3,4},可计算出图像变换前后的4个角点位移量C4pt:
在公式(7)中,其中Δxi=xi′-xi。
因而,可根据仿射参数和/>分别计算出/>和/>并依据均方误差MSE来构建四角点偏移损失Loss4pt,四角点偏移损失公式表示为:
采用公式(8)所示的四角点偏移损失函数对网络进行训练,可使得网络收敛到一个较优值,对于自然图像的配准具有较高的精度,但由于本方法中的配准任务的目标数据是存在显著非线性辐射差异的光学与SAR图像。因此,除损失函数Loss4pt外,在本方法中,还构建了以异源图像间的相似性度量为基础的损失函数LossNMI以帮助配准网络在目标数据上更好地收敛,提升配准精度。在对异源图像计算相似性度量以完成配准任务时,互信息MI可以克服图像间的辐射差异,取得较好的效果。然而由于MI受两幅图像的重合区域大小影响较大,MI值达到最大时无法保证配准结果正确。为使目标函数能更加准确反映MI值与配准效果之间的关系,在本方法中采用归一化互信息(NMI)作为图像间的相似性度量,其相应数学表达为:
在公式(9)中,pA(a)、pB(b)分别为图像A、B的边缘概率分布,pAB(a,b)为图像A与B的联合概率分布。此外,为了进一步提高NMI值反映配准效果的鲁棒性,考虑到图像的配准方向,结合输入图像对(IR,IS)之间的双向转换,构建损失函数LossNMI,即:
在公式(10)中,Fθ是待配准图像IS向光学图像IR配准的变换函数,是逆向变换函数。在根据网络输出的变换参数对图像进行配准时,在本方法中,采用可微的空间变换模块ST来实现,以便梯度可以反向传播。
总的损失函数是上述四角点偏移损失Loss4pt和图像间的相似性损失LossNMI之和,即:
Losstotal=Loss4pt+LossNMI (11)
在本实施例中,在构建总损失函数后,对其进行计算,并根据计算结果对异源图像配准网络中的参数进行调整。再将另一对训练数据对输入异源图像配准网络中,根据输出结果再次计算总损失函数,直至损失函数的计算结果收敛,则说明源图像配准网络也收敛,得到训练好的异源图像配准网络。
在本实施例中,在得到训练后的异源图像配准网络后,可将空间变换单元嵌入至该网络中。这样,在利用其对SAR图像进行配准时,只要将待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,即可得到基于光学参考图像进行配准的配准后SAR图像。
上述基于位置感知的光学与SAR图像配准方法中,提出了一种强化位置感知的一体化配准网络。相比于传统基于点特征的配准算法,由于直接通过网络提取的深度特征进行变换参数的回归,本方法摆脱了对特征点检测与匹配的依赖,在各种图像场景区域,尤其是传统方法容易失效的重复纹理区域与弱纹理区域,具有良好的稳健性。在通过深度网络来对光学与SAR图像间的空间关系进行非线性映射时,仅利用高层特征或简单级联的多尺度特征来回归变换参数的方法配准效果不佳,而本方法利用结合坐标注意力的细粒度的多尺度特征提取,以嵌入位置信息,并通过含定位信息的浅层特征与含高级语义信息的深层特征进行有效融合,提高了特征定位精度,显著提升了配准性能。并通过实验结果表明,在公开的高分辨率数据集上,本方法的配准精度明显高于其他四种代表性算法,且在精度提升的前提下,保证了较高的配准速度,为光学与SAR图像配准定位任务奠定了良好的基础。本方法可以拓展到其它类型的遥感图像配准,并适用于多种场景区域。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于位置感知的光学与SAR图像配准装置,包括:配准数据集获取模块200、训练数据对构建模块210、训练变换参数得到模块220、训练配准后图像得到模块230、损失函数构建模块240、异源图像配准网络训练模块250和异源图像配准模块260,其中:
配准数据集获取模块200,用于获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
训练数据对构建模块210,用于对所述配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
训练变换参数得到模块220,用于将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
训练配准后图像得到模块230,用于将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
损失函数构建模块240,用于根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
异源图像配准网络训练模块250,用于根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
异源图像配准模块260,用于获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
关于基于位置感知的光学与SAR图像配准装置的具体限定可以参见上文中对于基于位置感知的光学与SAR图像配准方法的限定,在此不再赘述。上述基于位置感知的光学与SAR图像配准装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于位置感知的光学与SAR图像配准方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
对所述配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
对所述配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.基于位置感知的光学与SAR图像配准方法,其特征在于,所述方法包括:
获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
对所述配准数据集中的SAR图像进行随机仿射变换得到与原SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
2.根据权利要求1所述的光学与SAR图像配准方法,其特征在于,所述融合坐标注意力的多尺度特征提取单元包括依次连接的三个融合了坐标注意力的特征提取层,分别为第一特征提取层、第二特征提取层以及第三特征提取层;
将所述通道叠加图像输入所述第一特征提取层,提取得到浅层特征图像;
将所述浅层特征图像输入所述第二特征提取层,提取得到中层特征图像;
将所述中层特征图像输入所述第三特征提取层,提取得到深层特征图像。
3.根据权利要求2所述的光学与SAR图像配准方法,其特征在于,所述融合坐标注意力的多尺度特征提取单元中的各特征提取层均包括Res2Net模块以及坐标注意力机制模块;
输入各特征提取层的不同尺度特征图像通过所述Res2Net模块提取得到高级语义特征;
所述高级语义特征再通过所述坐标注意力机制模块提取关注位置信息的特征图像。
4.根据权利要求3所述的光学与SAR图像配准方法,其特征在于,在所述特征融合单元中:
分别对所述浅层特征图像、中层特征图像以及深层特征图像进行不同处理,将不同尺度的特征图像变换到空间大小与所述浅层特征图像相同,通道数与所述深层特征图像相同;
将进行空间和通道变换处理后的特征图像进行相加,并将相加结果依次通过坐标注意力机制模块以及第四特征提取层进行深度特征融合得到所述特征融合图像。
5.根据权利要求4所述的光学与SAR图像配准方法,其特征在于,所述分别对所述浅层特征图像、中层特征图像以及深层特征图像进行不同处理包括:
利用1×1卷积对所述浅层特征图像的通道数进行扩展;
利用1×1卷积对所述中层特征图像的通道数进行扩展后,再进行两倍上采样处理;
利用全局自适应平均池化对所述深层特征图像进行处理后,再利用1×1卷积变换并进行扩展。
6.根据权利要求1-5任一项所述的光学与SAR图像配准方法,其特征在于,根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数真值标签构建得到损失函数包括:
根据所述训练配准后图像以及该训练数据对中的光学图像之间的相似性度量为基础,构建相似度损失函数;
根据所述训练变换参数以及对应的变换参数真值标签构建四角偏移损失函数;
根据所述相似度损失函数以及四角偏移损失函数得到总损失函数。
7.根据权利要求6所述的光学与SAR图像配准方法,其特征在于,在得到所述训练后的异源图像配准网络时,将所述空间变换单元嵌入至该网络中;
将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到基于所述光学参考图像进行配准的配准后SAR图像。
8.基于位置感知的光学与SAR图像配准装置,其特征在于,所述装置包括:
配准数据集获取模块,用于获取配准数据集,所述配准数据集中包括多个预先配齐的光学图像以及SAR图像对;
训练数据对构建模块,用于对所述配准数据集中的SAR图像进行随机仿射变换得到与该SAR图像具有仿射变换关系的SAR训练图像以及变换参数真值标签,将所述SAR训练图像与对应的光学图像组成训练数据对;
训练变换参数得到模块,用于将所述训练数据对输入至异源图像配准网络中,在所述异源图像配准网络中,所述训练数据在通道方向上进行叠加后得到通道叠加图像,所述通道叠加图像通过融合坐标注意力的多尺度特征提取单元提取不同尺度的特征图像,再通过特征融合单元将不同尺度的特征图像进行多尺度局部信息和全局信息的融合后得到特征融合图像,再对所述特征融合图像进行全局自适应平均池化后通过参数回归单元得到训练变换参数;
训练配准后图像得到模块,用于将所述SAR训练图像根据训练变换参数通过空间变换单元进行仿射变换后,得到训练配准后图像;
损失函数构建模块,用于根据所述训练配准后图像、训练变换参数、该训练数据对中的光学图像、以及对应的变换参数的真值标签构建得到损失函数;
异源图像配准网络训练模块,用于根据所述损失函数的计算结果对所述异源图像配准网络进行训练,直至所述损失函数收敛,则得到训练后的异源图像配准网络;
异源图像配准模块,用于获取待进行配准的SAR图像以及光学参考图像,将所述待进行配准的SAR图像以及光学参考图像输入至训练后的异源图像配准网络后,得到变换参数,通过空间变换单元对所述待进行配准的SAR图像根据所述变换参数进行仿射变换后得到配准后SAR图像。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求7所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310845110.7A CN116883466A (zh) | 2023-07-11 | 2023-07-11 | 基于位置感知的光学与sar图像配准方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310845110.7A CN116883466A (zh) | 2023-07-11 | 2023-07-11 | 基于位置感知的光学与sar图像配准方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883466A true CN116883466A (zh) | 2023-10-13 |
Family
ID=88258064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310845110.7A Pending CN116883466A (zh) | 2023-07-11 | 2023-07-11 | 基于位置感知的光学与sar图像配准方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883466A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333928A (zh) * | 2023-12-01 | 2024-01-02 | 深圳市宗匠科技有限公司 | 一种人脸特征点检测方法、装置、电子设备及存储介质 |
CN117541833A (zh) * | 2024-01-10 | 2024-02-09 | 中山大学 | 一种多模态图像匹配方法、系统、终端设备及存储介质 |
CN117710711A (zh) * | 2024-02-06 | 2024-03-15 | 东华理工大学南昌校区 | 一种基于轻量化深度卷积网络的光学和sar图像匹配方法 |
CN118115732A (zh) * | 2024-01-12 | 2024-05-31 | 中国科学院空天信息创新研究院 | 一种融合光学与sar通道关联性的语义分割方法和装置 |
-
2023
- 2023-07-11 CN CN202310845110.7A patent/CN116883466A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333928A (zh) * | 2023-12-01 | 2024-01-02 | 深圳市宗匠科技有限公司 | 一种人脸特征点检测方法、装置、电子设备及存储介质 |
CN117333928B (zh) * | 2023-12-01 | 2024-03-22 | 深圳市宗匠科技有限公司 | 一种人脸特征点检测方法、装置、电子设备及存储介质 |
CN117541833A (zh) * | 2024-01-10 | 2024-02-09 | 中山大学 | 一种多模态图像匹配方法、系统、终端设备及存储介质 |
CN117541833B (zh) * | 2024-01-10 | 2024-04-02 | 中山大学 | 一种多模态图像匹配方法、系统、终端设备及存储介质 |
CN118115732A (zh) * | 2024-01-12 | 2024-05-31 | 中国科学院空天信息创新研究院 | 一种融合光学与sar通道关联性的语义分割方法和装置 |
CN117710711A (zh) * | 2024-02-06 | 2024-03-15 | 东华理工大学南昌校区 | 一种基于轻量化深度卷积网络的光学和sar图像匹配方法 |
CN117710711B (zh) * | 2024-02-06 | 2024-05-10 | 东华理工大学南昌校区 | 一种基于轻量化深度卷积网络的光学和sar图像匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Dense attention fluid network for salient object detection in optical remote sensing images | |
CN116883466A (zh) | 基于位置感知的光学与sar图像配准方法、装置及设备 | |
Xiang et al. | Automatic registration of optical and SAR images via improved phase congruency model | |
CN112990010B (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
Liu et al. | A multikernel domain adaptation method for unsupervised transfer learning on cross-source and cross-region remote sensing data classification | |
Li et al. | A deep learning semantic template matching framework for remote sensing image registration | |
Liu et al. | Bipartite differential neural network for unsupervised image change detection | |
CN105354841B (zh) | 一种快速遥感影像匹配方法及系统 | |
CN110084743B (zh) | 基于多航带起始航迹约束的图像拼接与定位方法 | |
CN110704652A (zh) | 基于多重注意力机制的车辆图像细粒度检索方法及装置 | |
CN116485856B (zh) | 一种基于语义分割的无人机图像地理配准方法及相关设备 | |
Liang et al. | Image registration using two-layer cascade reciprocal pipeline and context-aware dissimilarity measure | |
Zeng et al. | Adaptive edge-aware semantic interaction network for salient object detection in optical remote sensing images | |
Min et al. | Non-rigid registration for infrared and visible images via gaussian weighted shape context and enhanced affine transformation | |
Chen et al. | Improving lane detection with adaptive homography prediction | |
CN116664856A (zh) | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 | |
CN117291790B (zh) | 一种sar图像配准方法、装置、设备及介质 | |
CN117291957A (zh) | 跨模态的光-sar图像配准方法、装置、设备和介质 | |
He et al. | Crack segmentation on steel structures using boundary guidance model | |
CN114998630B (zh) | 一种从粗到精的地对空图像配准方法 | |
Dan et al. | Multifeature energy optimization framework and parameter adjustment-based nonrigid point set registration | |
CN116258960A (zh) | 基于结构化电磁散射特征的sar目标识别方法及装置 | |
Di et al. | FeMIP: detector-free feature matching for multimodal images with policy gradient | |
CN116128919A (zh) | 基于极线约束的多时相图像异动目标检测方法及系统 | |
Xu et al. | Progressive matching method of aerial-ground remote sensing image via multi-scale context feature coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |