CN117496205A - 一种基于ITHM-Net的异源景像匹配方法 - Google Patents
一种基于ITHM-Net的异源景像匹配方法 Download PDFInfo
- Publication number
- CN117496205A CN117496205A CN202311447064.1A CN202311447064A CN117496205A CN 117496205 A CN117496205 A CN 117496205A CN 202311447064 A CN202311447064 A CN 202311447064A CN 117496205 A CN117496205 A CN 117496205A
- Authority
- CN
- China
- Prior art keywords
- image
- matching
- network
- cyclegan
- bil
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013519 translation Methods 0.000 claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 75
- 238000012549 training Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 16
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 claims description 15
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 230000002829 reductive effect Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 9
- 230000008485 antagonism Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 abstract 2
- 230000000694 effects Effects 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 17
- 238000003384 imaging method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 229920001651 Cyanoacrylate Polymers 0.000 description 1
- 208000032538 Depersonalisation Diseases 0.000 description 1
- 239000004830 Super Glue Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明提出一种基于ITHM‑Net的异源景像匹配方法,属于图像处理技术领域。针对目前存在的生成器图像色彩变化控制不好及无法兼顾提取图像的定位精度和特征点的深度信息问题,本发明提出将图像翻译和深度特征提取相结合,完成可见光‑红外图像异源景像匹配任务,通过设计BIL_CycleGAN图像翻译网络,将可见光‑红外的异源图像经过翻译之后转化为同源图像匹配任务,基于改进的CMM‑Net伪孪生网络进行特征点提取,利用FLANN方法进行特征匹配,再通过GMS算法剔除误匹配点从而完成匹配任务。本发明的方法缩小了异源图像之间的差异,减小了匹配难度,显著提高了图像匹配的成功率和匹配效率。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于ITHM-Net的异源景像匹配方法。
背景技术
在飞行器导航与制导领域中,红外、可见光、合成孔径雷达等观测技术手段变得更加普遍,由于实时图和基准图成像源存在不同情况,异源景像匹配技术的应用更加广泛,同时也发挥着日益重要的作用,除合成孔径雷达外,红外成像相机也是飞行器上搭载的一种重要实时图采集装置;红外图像(Infrared Image,IRI)由于是传感器接受地物热量辐射生成的图像,具有夜视效果好、穿透性强、不易被干扰等特点,而可见光图像(Visible Image,VI)具有成像纹理清晰、图像信息量大的特点;由于不同成像原理之间具有的信息互补性,利用多源图像分析图像特征可以有效解决单一传感器采集的图源信息量不足的问题,因此在飞行器导航领域中可见光和红外图像的匹配技术被广泛应用,进而实现扩大增加导航基准图信息和全天时工作的目的。
近年来,利用深度学习技术提取图像的深度特征更多地应用在了图像匹配领域,利用图像的深度特征进行图像匹配更近似于人类大脑的图像比较模式,泛化能力更强。如SuperPoint利用全卷积网络自动提取特征点,SuperGlue在此基础上利用注意力图神经网络对提取的特征点进行匹配,受此启发,D2-Net、COTR等算法均利用深度神经网络提取图像特征,并取得了很好的结果。但是在进行可见光-红外图像的匹配任务时,由于图像信息和成像风格的巨大差异,在训练样本少的情况下,上述算法较难获得良好效果。
针对异源图像匹配任务,图像风格迁移网络可以将图像“翻译”成指定的风格,将异源图像进行翻译之后再进行匹配任务成为一个新思路,图像翻译效果越好,异源图像匹配难度相应地越低。现有的成熟图像翻译算法有Pix2Pix和CycleGAN等算法,CycleGAN有效地解决了Pix2Pix需要大量成对图像数据的问题,高效地实现由一个类别转换为另一个类别的图片翻译。
但是,针对飞行器实时图和基准图异源匹配任务的需求,CycleGAN中仅有的两个声称损失函数和两个循环损失函数不能更好地控制生成器的图像色彩变化,使得生成图像与原始图像的图像色彩差异较大,同时,现有的特征提取网络提取出图像的全局信息会降低定位精度,无法兼顾提取图像的定位精度和特征点的深度信息。
发明内容
针对上述已有技术中存在的问题,本发明旨在提出一种基于图像翻译的深度点特征异源匹配算法(Image Translation for HeterogeneousMatching Algorithm of deeppoint features,ITHM-Net),用于完成可见光-红外图像、可见光-SAR等异源景象的匹配任务,以解决背景技术中存在的生成图像与原始图像的图像色彩差异较大及降低定位精度的问题。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于ITHM-Net的异源景像匹配方法,包括以下步骤:
S1:构建BIL_CycleGAN图像翻译网络;
S2:利用BIL_CycleGAN图像翻译网络,将待匹配的可见光图像翻译为伪红外图像;
S3:基于改进的CMM-Net网络对红外图像和伪红外图像进行深度特征点提取,并用FLANN方法对特征点进行粗匹配;
S4:在步骤S3处理的基础上,利用GMS算法剔除误匹配的特征点,完成可见光图像与红外图像的异源景像匹配。
基于上述方案,本发明的进一步优选方案为:在上述S1中,对经典CycleGAN网络进行改进的过程如下:
S11:分析经典CycleGAN网络的损失函数,找出干扰整体性能的子损失函数;
S12:利用二值交叉熵和激活函数结合成新的损失函数,对上述S11中的子损失函数进行改进;
S13:设置二值交叉熵损失的类别权重,二值交叉熵损失函数LBIL的计算公式如下:
其中:x为真值,为估计值。
作为本发明的进一步优选方案:设计BIL_CycleGAN图像翻译网络的过程如下:
S101:建立对抗损失函数;
基于经典CycleGAN网络,在BIL_CycleGAN图像翻译网络中有两处对抗损失,生成器G和判别器DY间的对抗损失函数和生成器F和判别器DX间的对抗损失函数分别用LGAN(G,DY,X,Y)和LGAN(F,DX,Y,X)表示,公式如下:
其中:E为期望值,pdata为实际数据分布,G(x)为生成器G生成的Y域图像,DY用于区分Y域的原图y和生成图像G(x),F(y)为生成器F生成的X域图像,DX用于区分X域的原图x和生成图像F(y);
S102:建立循环一致性损失函数;
利用原图和生成图像之间的距离构建循环一致性损失函数Lcyc(G,F),公式如下:
L1=||F(G(x))-x||1 (5)
其中:F(G(x))表示x由正向网络生成的图像,||F(G(x))-x||1表示正向生成图像和原图之间的L1距离,G(F(y))和||G(F(y))-y||1分别表示反向网络的生成图和生成图-原图距离;
S103:构建本体一致性损失函数Lidentity(G,F),公式如下:
其中,F(x)表示生成器F生成的Y域图像,G(y)表示生成器G生成的X域图像,||G(y)-y||1和||F(x)-x||1分别表示反向网络和正向网络的生成图像与原图之间的L1距离;
S104:建立BIL_CycleGAN图像翻译网络的全部损失函数L(G,F,DX,DY),公式如下:
其中:α和β分别为Lcyc(G,F)和Lidentity(G,F)的权重;
由公式(1~7)得,BIL_CycleGAN优化的目标函数G*,F*,公式如下:
作为本发明的进一步优选方案:上述S2具体过程如下:
S21:利用BIL_CycleGAN图像翻译网络的GAN对异源数据集进行对抗训练,分析可见光图像和红外图像之间的像素分布概率;
S22:BIL_CycleGAN图像翻译网络由两个相反方向的GAN组成一个环形网络结构,利用GAN经步骤S21的对抗训练,将可见光图像翻译为伪红外图像,并缩小原图与翻译后伪红外图像的差别。
作为本发明的进一步优选方案:上述S3中深度特征点提取的具体过程为:
在CMM-Net网络中选择中间层的最后一个卷积层作为图像特征点图,将CMM-Net网络中的最大池化层替换为平均池化层,池化层滑块的步长由两个像素减小到一个像素,将CMM-Net网络第四层的三个卷积层设置dilated rate为3的空洞卷积层、卷积步长为2进行提取图像特征点。
作为本发明的进一步优选方案:上述S3中对特征点进行粗匹配的过程具体为:
S31:将提取的红外图像与伪红外图像的特征点分别存储到FLANN算法中,构建索引;
S32:对于红外图像的每个特征点,利用FLANN算法在伪红外图像中找到与红外图像最近邻的特征点;
S33:计算每组最近邻的特征点之间的距离;
S34:根据特征点之间的距离进行筛选,找出一组最优匹配值。
作为本发明的进一步优选方案:上述S4中剔除误匹配特征点的过程如下:
S41:利用GMS算法将图像的运动平滑性约束转化为统计量;
S42:通过统计匹配点邻域内其他匹配点的数量判断匹配是否正确;
S43:保留邻域估计量大于阈值的网格区域中的匹配对,作为最终的特征匹配对。
本发明通过采用上述方案,与现有技术相比,具有如下有益的技术效果:
1、本发明的方法是基于图像翻译与深度特征点提取的图像匹配方法,该方法将图像翻译网络与图像匹配算法相串联,用于可见光与红外图像的异源景像匹配,图像翻译网络将可见光转换为伪红外图像,缩小了匹配图像对之间的差距,减小了匹配难度,增加了匹配成功率,基于深度特征的图像匹配算法有效地提取了图像的深层特征完成图像匹配任务,实验证明,匹配效果远远优于人工设计的传统方法。
2、本发明所提的基于图像翻译与深度特征点提取的方法采用匹配成功率为87.46%,单张匹配时间为0.615s,相比传统方法显著提高了图像匹配的成功率和匹配效率,在很大程度上优化了算法的匹配效能,为飞行器景像匹配导航的实时需要提供技术准备。
附图说明
图1为本发明的一种基于ITHM-Net的异源景像匹配方法的流程图;
图2为本发明的可见光-红外图像的转换原理;
图3为本发明的BIL_CycleGAN图像翻译网络的结构;
图4为本发明的图像翻译模型的训练样本实例;
图5为本发明的模型训练损失函数;
图6为本发明的GMS原理示意图;
图7为本发明的GMS的网格运动划分的示意图;
图8为本发明利用相同的数据集训练CycleGAN和BIL_CycleGAN的部分转换结果;
图9为本发明通过不同方法验证图像匹配效果的对比示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
参考图1-9,本发明提出一种基于ITHM-Net的异源景像匹配方法,包括以下步骤:
S1:构建BIL_CycleGAN图像翻译网络;
S2:利用BIL_CycleGAN图像翻译网络,将待匹配的可见光图像翻译为伪红外图像;
S3:基于改进的CMM-Net网络对红外图像和伪红外图像进行深度特征点提取,并用FLANN方法对特征点进行粗匹配;
S4:在步骤S3处理的基础上,利用GMS算法剔除误匹配的特征点,完成可见光-红外图像的异源景像匹配。
基于经典CycleGAN网络设计BIL_CycleGAN图像翻译网络,通过异源图像数据集训练BIL_CycleGAN模型,上述S1中,为了使图像翻译在获得所需风格的同时,不损耗原图所具有的纹理细节特征及减少图像的畸变失真,对经典CycleGAN网络提出改进,改进的过程具体为:
S11:分析经典CycleGAN网络的损失函数,找出干扰整体性能的子损失函数;
经典CycleGAN网络的损失函数中包含两个生成损失函数和两个循环损失函数,其中循环损失函数利用原图和生成图像之间的L1距离作为损失函数,生成损失函数利用均方误差(mean square error,MSE)作为损失函数,在训练时存在一些离群点干扰模型的整体性能,然后由于MSE的平方运算会放大较大(>1)的误差,缩小较小(<1)的误差,受离群点影响大,而牺牲了正常数据的效果,扩大了离群点对整体效果的影响,因此,生成损失函数即为干扰整体性能的子损失函数;此外,当输出的初始较大时MSE梯度更新幅度较小,会导致模型的收敛速度较小,模型训练不稳定。
S12:利用二值交叉熵和激活函数结合成新的损失函数,对上述S11中的子损失函数进行改进,避免了MSE对离群点的过度敏感,提高训练模型的收敛速度,改善模型的稳定性。
S13:设置二值交叉熵损失的类别权重,缓解样本的不均衡问题,二值交叉熵损失函数LBIL的计算公式如下:
其中:x为真值,为估计值,此时的损失函数的梯度更新与估计值和真值之差成正相关,使得模型训练的收敛更快,提升数值计算的稳定性。
进一步地,上述S1中,BIL_CycleGAN的损失函数包括三项,除了经典CycleGAN网络中的对抗损失函数和循环一致性损失函数外,还构建了本体一致性损失函数,用于维持图像色调,防止图像整体颜色发生变化,因此BIL_CycleGAN图像翻译网络的设计过程具体如下:
S101:建立对抗损失函数;
生成器和判别器之间的对抗即为对抗损失,基于经典CycleGAN网络,在BIL_CycleGAN图像翻译网络中有两处对抗损失,生成器G和判别器DY间的对抗损失函数和生成器F和判别器DX间的对抗损失函数分别用LGAN(G,DY,X,Y)和LGAN(F,DX,Y,X)表示,公式如下:
其中:E为期望值,pdata为实际数据分布,G(x)为生成器G生成的Y域图像,DY用于区分Y域的原图y和生成图像G(x),F(y)为生成器F生成的X域图像,DX用于区分X域的原图x和生成图像F(y);
S102:建立循环一致性损失函数;
为了使图像x经过生成器G和生成器F后生成的图像尽量接近原图x,反向网络图像y也同理,图像y在网络循环后尽量接近原图y,即图像的循环一致性,利用原图和生成图像之间的距离L1构建循环一致性损失函数Lcyc(G,F),公式如下:
L1=||F(G(x))-x||1 (5)
其中:F(G(x))表示x由正向网络生成的图像,||F(G(x))-x||1表示正向生成图像和原图之间的L1距离,G(F(y))和||G(F(y))-y||1分别表示反向网络的生成图和生成图-原图距离;
S103:构建本体一致性损失函数Lidentity(G,F);
为了控制生成器的图像色彩变化,在建立对抗损失函数和循环一致性函数的基础上,还构建了本体一致性损失函数,该函数的目的在于约束生成器对图像颜色的随机生成,使生成图像和原始图像的图像色彩设置保持一致;在循环生成网络模型中,通过设置本体一致性损失函数,保证了图像经过生成器G或生成器F处理后的输出与输入在最大限度上保持一致。该损失函数使用L1距离计算,公式如下:
其中,F(x)表示生成器F生成的Y域图像,G(y)表示生成器G生成的X域图像,||G(y)-y||1和||F(x)-x||1分别表示反向网络和正向网络的生成图像与原图之间的L1距离;
S104:建立BIL_CycleGAN图像翻译网络的全部损失函数L(G,F,DX,DY),公式如下:
其中:α和β分别为Lcyc(G,F)和Lidentity(G,F)的权重,在训练过程中可以通过调节这两个权重来调节模型的效果;
由公式(1~7)得,BIL_CycleGAN优化的目标函数G*,F*的公式如下:
进一步地,上述S2图像翻译的具体过程如下:
S21:利用BIL_CycleGAN图像翻译网络的GAN对异源数据集进行对抗训练,使模型学习分析到可见光图像和红外图像之间的像素分布概率并生成图像,训练的过程中不断缩小原图和伪图的差别,优化BIL_CycleGAN网络模型的效能,提高转化图像与原图的相似性,转换原理如图2所示;
如图3所示,与经典CycleGAN网络相似,BIL_CycleGAN结构由两个相反方向的GAN组成,形成了一个环形网络结构,实现了可见光图像和红外图像风格的相互转换,图3中,x、y分别表示不同源X、Y中的图像,G、F表示BIL_CycleGAN网络结构中的两个不同方向的生成器,G表示将x源图像转换到y源中,F表示将y源图像转换到x源中,DX、DY表示不同方向相对应的判别器;以图中的上侧一支为例,经过训练GX→Y和FY→X,实现将X映射到Y,并通过判别器DY进行对抗练习优化生成器的转换效果,使得X的转化效果接近Y的成像风格。但是训练过程中x和y不是对同一场景的异源图像,仅仅是成像源不同的图像对,因此BIL-CycleGAN图像翻译网络利用循环一致性损失(cycle-consistency loss)来约束生成器保有源域图像的轮廓信息和内容特征,防止生成器G、F相互矛盾,使模型训练更加稳定,加速了模型的收敛,增强了异源图像风格转换效果。
S22:通过上述S21的对抗训练,将可见光图像翻译为伪红外图像,并缩小原图与翻译后伪红外图像的差别。
本发明中使用开源的RGB-NIR Scene Dataset数据集对BIL-CycleGAN图像翻译网络进行训练,数据集中包括9类477幅RGB和近红外图像组成,图像由可见光和近红外滤片拍摄,场景有乡村、田野、森林、室内、山地、旧建筑、街道、城市、水。在输入网络进行训练之前将图像尺寸统一设置为256×256像素大小,如图4所示。
同时,在本发明中,BIL-CycleGAN图像翻译网络模型训练运行环境基于CUDA 10.1和深度学习框架PyTorch 1.6,训练环境与配置如表1所示。
表1模型训练环境
在模型训练中,学习率分为两个阶段进行调整,前100个迭代次数(epoch)设置模型学习率Lr=0.0002,后100个epoch使用Adam自适应调整Lr的大小,本发明训练目的是将可见光图像翻译为红外图像,因此需要增强GX→Y在整个模型中的重要程度,在训练过程中设置X→Y→X正向重建损失函数为30,反向则设置为10,循环一致性损失函数Lcyc与本体一致性损失函数Lidentity的权重系数α:β设置为3:1。
如图5所示,从图5中可以明显看出随着模型的训练,损失函数总趋势不断降低,在训练过程中,由于生成器和判别器的对抗训练,在博弈中提高性能导致损失函数伴随着波动,与经典CycleGAN网络相比,本发明提出的图像翻译网络BIL_CycleGAN的损失函数波动幅度更大,表明本发明的网络模型在训练过程中生成器与判别器的对抗训练更激烈。此外,由于在训练时将X→Y→X方向的权重调高,从图5中也可以明显看出BIL_CycleGAN中代表将可见光转成红外的正向损失G_A明显优于反向的G_B和经典CycleGAN的正向损失G_A,表明本发明设计的BIL_CycleGAN图像翻译网络将可见光图像转换为红外图像的良好训练效果。
进一步地,深度特征匹配是一种利用深度神经网络提取的特征来寻找两幅图像之间点对应关系的方法,不需要外部检测和特征描述,而是直接计算两幅图像之间的对应关系,为了兼顾定位精度和特征点的深度信息,特征提取网络在CMM-Net网络的基础上改进得到,深度特征点提取的具体过程为:
第一:在CMM-Net网络中选用VGG16作为特征提取网络,网络的浅层可以提取图像的局部特征,如图像中的边缘、角点等点线特征,网络的深层则可以提取出图像的全局信息,但缺点是降低了定位精度;本发明在CMM-Net网络选择中间层中的最后一个卷积层作为图像特征点图,以达到兼顾定位精度和特征点的深度信息的目的。
第二:在图像经过卷积神经网络的过程中,池化层和滑块的步长都在影响着生成的特征的分辨率,CMM-Net网络选择将最大池化层替换成平均池化层,同时池化层滑块的步长也由两个像素减小到一个像素;
第三:空洞卷积通过添加空洞扩大感受野,若设置空洞卷积率(dilated rate)等于2时,原本3x3的卷积核在相同参数量和计算量下拥有5x5大小的感受野,由于红外图像的成像原理,图像分辨率较低,成像模糊,需要兼顾分辨率的同时扩大感受野提取有效的局部图像特征,因此采用dilated rate=3的空洞卷积层,同时为满足景象匹配导航技术实时性的需要,将卷积步长设置为2,在卷积神经网络的图像特征提取泛化能力提高的同时,也加快了特征提取速率。
进一步地,通过FLANN算法对红外图像和伪红外图像中的特征点进行粗匹配,FLANN是快速最近邻搜索包(Fast_Library_for_Approximate_Nearest_Neighbors)的简称,具体提取特征点的步骤如下:
S31:将提取的红外图像与伪红外图像的特征点分别存储到FLANN算法中,构建索引;
S32:对于红外图像的每个特征点,利用FLANN算法在伪红外图像中找到与红外图像最近邻的特征点;
S33:计算每组最近邻的特征点之间的距离;
S34:根据特征点之间的距离进行筛选,找出一组最优匹配值。
进一步地,上述S4中剔除误匹配特征点的具体过程为:
S41:利用GMS算法将图像的运动平滑性约束转化为统计量;
如图6-7所示,网格运动统计(Grid-based Motion Statistics,GMS)算法是一种根据网格划分特征点来作为邻域支持估计量,将高数量匹配点转换成高质量、高鲁棒性的图像匹配算法,筛除了大量误匹配点,提高了匹配速率;
GMS算法将运动平滑性约束转化为统计量,在一个正确匹配点较小的领域内会存在着大量的匹配点,而在错误的匹配点领域内含有匹配点的数量较少,在图6中,左侧为匹配图像IA,右侧为待匹配图像IB,两幅图像分别有M与N个特征点,设定IA与IB所有匹配点集合为:X={x1,x2,…,xi,…,xN},其中xi={M,N}表示一对特征点的匹配对。
S42:通过统计匹配点邻域内其他匹配点的数量判断匹配是否正确;
如图6中,在a区域有一特征点Mi匹配到b区域中的Ni中,匹配对xi匹配正确,而匹配对xj匹配错误,对图6中的a区域,用si表示xi邻域支持估计量,如式9所示:
si=|xi|-1 (9)
其中:-1表示从总数中减去匹配对自身;考虑到每个特征点的匹配是独立的,可以近似地认为si是服从二项分布的,即
则正确匹配的平均值mt、标准差st和错误匹配的平均值mf、标准差sf为:
S43:保留邻域估计量大于阈值的网格区域中的匹配对,作为最终的特征匹配对。
GMS算法通常是用相互间无重叠区域的网格来分割图像,设定网格大小为G=g×g,每个匹配点对的si值以其所在网格为单位进行计算,从而降低求解每个特征点si值的计算复杂度;图7中展示了网格运动划分,阈值τ的计算公式如下:
τ=mf+αsf (12)
其中:α表示调节参数。
在实际中,mf的值通常很小,α的值很大,因此,τ的值可以被近似表示为将邻域估计量si大于τ的网格区域中的匹配对保留下来作为最终的可靠的特征匹配对。
实施例一:可见光-红外图像转换的实验
本发明以相同数据集训练CycleGAN和BIL_CycleGAN两个图像翻译网络模型,利用训练结果模型将可见光图像翻译为红外图像,并测试图像对之间的相似度。本发明选取50对图像进行图像转换实验,部分转换结果如图8所示。
在图8(a)-图8(d)分别代表可见光原图、红外图像原图、CycleGAN生成的伪红外图像和BIL_CycleGAN生成的伪红外图像,从图8中定性地可以看出,两种图像翻译网络均实现了较好的转换效果,与红外原图区别较小。
为了进一步衡量CycleGAN和BIL_CycleGAN图像图像网络对图像翻译的相似度,本发明选用峰值信噪比(Peak Signal-to-Noise Ratio,PANR)、图像块感知相似度(LearnedPerceptual Image Patch Similarity,LPIPS)、均值哈希(average hash,aHash)、感知哈希(perceptual hash,pHash)四种图像相似程度评价指标,以此衡量可见光原图和红外或伪红外图像之间的转换效果,相似程度越高表示转换效果越好,通过测试50张测试图片结果如表2所示。
表2图像对相似度指标
PANR | LPIPS | aHash | pHash | |
Origin | 15.121 | 0.442 | 13.101 | 11.102 |
CycleGAN | 18.779 | 0.216 | 10.476 | 10.200 |
BIL_CycleGAN | 19.012 | 0.194 | 9.877 | 9.910 |
其中,PANR数值越大、且LPIPS、aHash、pHash数值越小,表示图像对的相似度越高,从表2可得出,可见光经过图像翻译网络转换后与原图的相似度有了明显提高,而本发明提出的改进损失函数后的BIL_CycleGAN的转换效果明显更好。
实施例二:图像匹配对比实验
上述实施例一验证了通过BIL_CycleGAN图像翻译网络可以减小可见光与红外图像之间的差别,本实施例为了验证图像翻译网络的作用和改进的图像匹配算法的效果,选用传统算法SIFT、SURF、ORB和现代算法CMM-Net与本发明所提算法(Ours)作对比;测试图像拍摄于西安钟楼,可见光及转换图像尺寸为1296×760,红外图像尺寸为640×512,匹配结果如图9所示。
从图9中可以直观看出,传统算法匹配效果较差、且大多为误匹配,横向看经过图像翻译后的图像匹配对数目增多,量化匹配结果如表3所示,表3中NA、NB分别表示匹配图和待匹配图中提取到的特征点数量,Matches表示最终匹配成功点对的数量,同时,采用匹配成功率(match success rate,MSR)和单张匹配时间(single matching time,SMT)两种评价指标对匹配算法进行评估。
匹配成功率即最终匹配成功点的数量与两张待匹配图中较少的特征点数量,MSR公式表示如下:
表3图像匹配量化性能对比
结合图9和表3可以得出:图像翻译网络将可见光转换为伪红外图像缩小匹配图像对之间的差距,减小了匹配难度,增加了匹配成功率,而传统算法却难以胜任异源图像匹配任务;同时,本发明所提出的图像翻译网络BIL_CycleGAN相较于经典CycleGAN网络对可见光转换为红外图像具有更好的转换效果,基于深度学习的图像匹配算法可以有效提取图像异源图像特征,完成图像匹配任务同时大大加快了图像匹配速率。
以上仅为本发明的优选实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,本发明的技术方案及构思可以有多种同等替换和变化,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于ITHM-Net的异源景像匹配方法,其特征在于,包括以下步骤:
S1:构建BIL_CycleGAN图像翻译网络;
S2:利用BIL_CycleGAN网络将待匹配的可见光图像翻译为伪红外图像;
S3:基于改进的CMM-Net网络对红外图像和伪红外图像进行深度特征点提取,并用FLANN方法对特征点进行粗匹配;
S4:在步骤S3处理的基础上,利用GMS算法剔除误匹配的特征点,完成可见光图像与红外图像的异源景像匹配。
2.根据权利要求1所述的一种基于ITHM-Net的异源景像匹配方法,其特征在于,上述步骤S1中,在建立BIL_CycleGAN图像翻译网络之前,对经典CycleGAN网络进行改进,其过程如下:
S11:分析经典CycleGAN网络的损失函数,找出干扰整体性能的子损失函数;
S12:利用二值交叉熵和激活函数结合成新的损失函数,对步骤S11中的子损失函数进行改进;
S13:设置二值交叉熵损失的类别权重,二值交叉熵损失函数LBIL的计算公式如下:
其中:x为真值,为估计值。
3.根据权利要求2所述的一种基于ITHM-Net的异源景像匹配方法,其特征在于,BIL_CycleGAN图像翻译网络包括三项损失函数,各个损失函数建立如下:
S101:建立对抗损失函数;
BIL_CycleGAN图像翻译网络中有两处对抗损失,生成器G和判别器DY间的对抗损失函数、生成器F和判别器DX间的对抗损失函数,分别用LGAN(G,DY,X,Y)和LGAN(F,DX,Y,X)表示,公式如下:
其中:E为期望值,pdata为实际数据分布,G(x)为生成器G生成的Y域图像,DY用于区分Y域的原图y和生成图像G(x),F(y)为生成器F生成的X域图像,DX用于区分X域的原图x和生成图像F(y);
S102:建立循环一致性损失函数;
利用原图和生成图像之间的距离构建循环一致性损失函数Lcyc(G,F),公式如下:
L1=||F(G(x))-x||1 (5)
其中:F(G(x))表示x由正向网络生成的图像,||F(G(x))-x||1表示正向生成图像和原图之间的L1距离,G(F(y))和||G(F(y))-y||1分别表示反向网络的生成图和生成图-原图距离;
S103:构建本体一致性损失函数Lidentity(G,F),公式如下:
其中:F(x)表示生成器F生成的Y域图像,G(y)表示生成器G生成的X域图像,||G(y)-y||1和||F(x)-x||1分别表示反向网络和正向网络的生成图像与原图之间的L1距离;
S104:建立BIL_CycleGAN图像翻译网络的全部损失函数L(G,F,DX,DY),公式如下:
其中:α和β分别为Lcyc(G,F)和Lidentity(G,F)的权重;
由公式(1)~(7)得,BIL_CycleGAN优化的目标函数G*,F*,公式如下:
4.根据权利要求3所述的一种基于ITHM-Net的异源景像匹配方法,其特征在于,上述步骤S2具体过程如下:
S21:利用BIL_CycleGAN图像翻译网络的GAN对异源数据集进行对抗训练,分析可见光图像和红外图像之间的像素分布概率;
S22:BIL_CycleGAN图像翻译网络由两个相反方向的GAN组成一个环形网络结构,利用GAN经步骤S21的对抗训练,将可见光图像翻译为伪红外图像,并缩小原图与翻译后伪红外图像的差别。
5.根据权利要求1所述的一种基于ITHM-Net的异源景像匹配方法,其特征在于,上述步骤S3中深度特征点提取的具体过程为:
在CMM-Net网络中选择中间层的最后一个卷积层作为图像特征点图,将CMM-Net网络中的最大池化层替换为平均池化层,池化层滑块的步长由两个像素减小到一个像素,将CMM-Net网络第四层的三个卷积层设置dilated rate为3的空洞卷积层、卷积步长为2进行提取图像特征点。
6.根据权利要求5所述的一种基于ITHM-Net的异源景像匹配方法,其特征在于,上述步骤S3中对特征点进行粗匹配的过程具体为:
S31:将提取的红外图像与伪红外图像的特征点分别存储到FLANN算法中,构建索引;
S32:对于红外图像的每个特征点,利用FLANN算法在伪红外图像中找到与红外图像最近邻的特征点;
S33:计算每组最近邻的特征点之间的距离;
S34:根据特征点之间的距离进行筛选,找出一组最优匹配值。
7.根据权利要求1所述的一种基于ITHM-Net的异源景像匹配方法,其特征在于,上述S4中剔除误匹配特征点的过程如下:
S41:利用GMS算法将图像的运动平滑性约束转化为统计量;
S42:通过统计匹配点邻域内其他匹配点的数量判断匹配是否正确;
S43:保留邻域估计量大于阈值的网格区域中的匹配对,作为最终的特征匹配对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311447064.1A CN117496205A (zh) | 2023-11-02 | 2023-11-02 | 一种基于ITHM-Net的异源景像匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311447064.1A CN117496205A (zh) | 2023-11-02 | 2023-11-02 | 一种基于ITHM-Net的异源景像匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117496205A true CN117496205A (zh) | 2024-02-02 |
Family
ID=89684187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311447064.1A Pending CN117496205A (zh) | 2023-11-02 | 2023-11-02 | 一种基于ITHM-Net的异源景像匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496205A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037845A (zh) * | 2021-11-30 | 2022-02-11 | 昆明理工大学 | 一种基于gan网络的异源图像特征块主方向判定方法及系统 |
-
2023
- 2023-11-02 CN CN202311447064.1A patent/CN117496205A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037845A (zh) * | 2021-11-30 | 2022-02-11 | 昆明理工大学 | 一种基于gan网络的异源图像特征块主方向判定方法及系统 |
CN114037845B (zh) * | 2021-11-30 | 2024-04-09 | 昆明理工大学 | 一种基于gan网络的异源图像特征块主方向判定方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103971115B (zh) | 一种基于NDVI和PanTex指数的新增建设用地图斑自动提取方法 | |
WO2018000752A1 (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
CN112614077B (zh) | 一种基于生成对抗网络的非监督低照度图像增强方法 | |
CN110119728A (zh) | 基于多尺度融合语义分割网络的遥感图像云检测方法 | |
CN107330875B (zh) | 基于遥感图像正反向异质性的水体周边环境变化检测方法 | |
CN105844627B (zh) | 一种基于卷积神经网络的海面目标图像背景抑制方法 | |
CN112487999B (zh) | 一种基于CycleGAN的遥感图像鲁棒特征提取方法 | |
CN107230197B (zh) | 基于卫星云图和rvm的热带气旋客观定强方法 | |
CN117496205A (zh) | 一种基于ITHM-Net的异源景像匹配方法 | |
CN111462027B (zh) | 基于多尺度梯度和抠图的多聚焦图像融合方法 | |
CN109754440A (zh) | 一种基于全卷积网络和均值漂移的阴影区域检测方法 | |
CN104616026A (zh) | 一种面向智能视频监控的监控场景类型辨识方法 | |
CN113837191B (zh) | 基于双向无监督域适应融合的跨星遥感图像语义分割方法 | |
CN109360184A (zh) | 结合阴影补偿与决策融合的遥感影像变化检测方法 | |
CN107610219A (zh) | 一种三维场景重构中几何线索感知的像素级点云稠密化方法 | |
CN108462866A (zh) | 一种基于匹配和优化的3d立体图像颜色校正方法 | |
CN105809650B (zh) | 一种基于双向迭代优化的图像融合方法 | |
CN118172499B (zh) | 一种基于资源三号遥感影像的建筑高度反演方法 | |
CN112419196A (zh) | 一种基于深度学习的无人机遥感影像阴影去除方法 | |
CN114495170A (zh) | 一种基于局部抑制自注意力的行人重识别方法及系统 | |
CN110738693A (zh) | 一种地基成像雷达多角度图像配准方法 | |
CN109741337A (zh) | 基于Lab色彩空间的区域合并分水岭彩色遥感影像分割方法 | |
CN107358625B (zh) | 基于SPP Net和感兴趣区域检测的SAR图像变化检测方法 | |
CN114998522A (zh) | 多视连续光场影像室内场景稠密点云准确提取方法及系统 | |
Jiang et al. | Gaussian weighted deep modeling for improved depth estimation in monocular images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |