CN116740399A - 异源图像匹配模型的训练方法、匹配方法及介质 - Google Patents
异源图像匹配模型的训练方法、匹配方法及介质 Download PDFInfo
- Publication number
- CN116740399A CN116740399A CN202310702011.3A CN202310702011A CN116740399A CN 116740399 A CN116740399 A CN 116740399A CN 202310702011 A CN202310702011 A CN 202310702011A CN 116740399 A CN116740399 A CN 116740399A
- Authority
- CN
- China
- Prior art keywords
- image
- screenshot
- rectangular
- channel
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000003475 lamination Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种异源图像匹配模型的训练方法、匹配方法及介质,训练方法包括步骤:A,获取训练图像数据集;B,搭建异源图像匹配网络模型;C,随机选取,第一图像上随机截取第一截图,标记关键点;对第一图像进行处理,以得到背景图像;在第二图像上截取第二截图,标记关键点;D,对背景图像和第一截图进行图像通道拼接,得到第一混合图像;对背景图像和第二截图进行图像通道拼接,得到第二混合图像;E,将获取的混合图像输入搭建好的网络进行前向推理,以得到多个关键点以及对应的预测值,并计算损失函数,重复迭代直至损失函数收敛至预设值,以得到训练好的异源图像匹配模型,使计算更加快速,准确,高效,匹配模型的鲁棒性更好。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种异源图像匹配方法。
背景技术
图像匹配是计算机视觉领域的一个重要研究方向,是指在两幅或多幅图像之间找到相似或重叠的区域并建立它们之间的对应关系,从而为图像融合、图像拼接等下游任务提供准确的输入。现有的图像匹配方法,如SHIFT、ORB等都是通过提取图像角点作为图像特征点,然后通过特征点匹配算法确定图像特征点之间的对应关系,进一步计算用于描述图像映射关系的单应变换矩阵,从而确定两幅图像之间的匹配关系。此类方法针对同源图像的匹配具有较好的效果,但针对成像特征迥异的异源图像匹配便会失效。
异源图像是指不同光源的成像图像,其成像特征存在很大的差异,例如可见光和红外图像。现有技术的异源图像匹配方法需要从上千个特征点中通过参数估计,即RANSC方法剔除异常点,且需要人工标注标签,匹配耗时长,低效。
发明内容
针对现有技术中存在的上述问题,本发明提供一种异源图像匹配模型的训练方法、匹配方法及介质,通过异源图像匹配网络模型对图像的高维特征进行提取,直接输出对应两幅图像之间关键位置的对应关系,端到端地实现异源图像之间的匹配。
第一方面,本申请实施例提供了一种异源图像匹配模型的训练方法,包括步骤:
A,获取训练图像数据集并进行预处理;
B,搭建异源图像匹配网络模型;
C,从获取的训练图像数据集中随机选取两张不同的图像,记为第一图像和第二图像,第一图像上随机截取一个随机大小的第一矩形截图,标记第一矩形截图的关键点;对第一图像进行处理,以得到背景图像;在第二图像上与第一图像的相同位置处截取第二矩形截图,标记第二矩形截图的关键点;
D,对背景图像和第一矩形截图进行图像通道拼接,得到第一混合图像,所述第一混合图像的通道一为背景图像、通道二和通道三均为第一矩形截图;对背景图像和第二矩形截图进行图像通道拼接,得到第二混合图像,所述第二混合图像的通道一为背景图像、通道二和通道三均为第二矩形截图;
E,将获取的第一混合图像和第二混合图像输入搭建好的网络进行前向推理,以得到多个关键点以及多个关键点对应的预测值,并计算损失函数,重复迭代执行步骤C至步骤D,直至损失函数收敛至预设值,以得到训练好的异源图像匹配模型。
在第一方面的一种可选方案中,步骤C中,所述标记的关键点包括矩形截图左上角点、矩形截图右上角点、矩形截图左下角点、矩形截图右下角点、矩形截图左上区域中心点、矩形截图右上区域中心点、矩形截图左下区域中心点、矩形截图右下区域中心点以及矩形截图中心点。
在第一方面的又一种可选方案中,步骤C中,标记矩形截图在图像上的关键点后,还对截图进行图像处理,以得到变换截图,所述图像处理方法包括随机亮度变化、随机对比度变化、随机遮挡区域以及随机添加噪声。
在第一方面的又一种可选方案中,步骤D中,对背景图像和矩形截图进行图像通道拼接之前,还对背景图像进行图像处理;对矩形截图进行缩放处理,以得到尺寸大小和背景图像一致的处理后的矩形截图。
在第一方面的又一种可选方案中,步骤E中,所述损失函数,记为L的计算式为:
L=λ1Lcon+λ2Lloc
其中,Lcon表示位置是否存在关键点的损失值,λ1表示位置是否存在关键点的损失值的权重,Lloc表示关键点坐标的损失值,λ2表示关键点坐标的损失值的权重,c表示是否存在关键点的真值,p表示是否存在关键点的预测值,xi表示第i个关键点的横坐标的真值,yi表示第i个关键点的纵坐标的真值,表示第i个关键点的横坐标的预测值,/>表示第i个关键点的纵坐标的预测值。
在第一方面的又一种可选方案中,步骤A中,所述预处理包括图像清洗以及图像转换,所述图像清洗即清除数据集中没有明显纹理特征的图像,所述图像转换即将图像转换成单通道的灰度图像。
在第一方面的又一种可选方案中,步骤B中,搭建的异源图像匹配网络模型包括依次连接的下采样区和上采样区,所述下采样区与上采样区通过跳跃连接模块连接;所述下采样区包括依次连接的多级下采样块,每一级下采样块均包括依次连接的卷积模块和最大池化层,所述上采样区包括依次连接的多级上采样块,每一级上采样块均包括依次连接的反卷积层和加权拼接层。
在第一方面的又一种可选方案中,步骤B中,搭建的异源图像匹配网络模型中,第一级下采样块中的第一卷积模块与第一级上采样块中的加权拼接层连接,第二级下采样块中的第二卷积模块与第二级上采样块中的加权拼接层连接,第三级下采样块中的第三卷积模块与第三级上采样块中的加权拼接层连接,第四级下采样块中的第四卷积模块与第四级上采样块中的加权拼接层连接,第四级下采样块中的最大池化层与第五级上采样块中的加权拼接层连接。
第二方面,本申请实施例提供了一种异源图像匹配方法,使用如上述训练方法训练好的异源图像匹配模型对两张图像进行匹配,包括步骤:
S1,获取待匹配图像并进行预处理,所述待匹配图像包括第一图像和第二图像;
S2,将第一图像和第二图像进行拼接,以得到三通道图像,通道一为第一图像,通道二和通道三为第二图像;
S3,将三通道图像输入异源图像匹配模型中进行前向推理,以得到多个关键点以及多个关键点对应的预测值;
S4,若存在预设个数以上关键点的预测值均不大于预设数值,则根据得到的多个关键点计算得到单应性变换矩阵,并基于单应性变换矩阵对第一图像进行变换,以得到变换图像,将变换图像作为新的第二图像并返回执行步骤S2,若不存在,则执行步骤S5;
S5,根据得到的多个关键点计算得到单应性变换矩阵,并根据单应性变换矩阵对三通道图像进行变换,以得到第一图像和第二图像的匹配关系。
第三方面,本申请实施例提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,可实现上述一种异源图像匹配模型的训练方法。
本发明的有益技术效果包括:
本发明方法通过深度卷积神经网络对图像的高维特征进行提取,直接输出对应两幅图像之间关键位置的对应关系,端到端地实现异源图像之间的匹配。深度卷积神经网络的训练数据可以在训练过程中自动产生标签,无需人工标注,网络参数能够实现自监督学习,对比现有技术的方法需要从上千个特征点中通过参数估计的方法剔除异常点,导致耗时长,低效的问题,本发明方法计算更加快速,准确,高效,异源图像匹配模型的鲁棒性更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种异源图像匹配模型的训练方法流程图;
图2为本发明中一种异源图像匹配模型大体框架示意图;
图3为本发明中一种异源图像匹配模型具体架构示意图;
图4为本发明中一种异源图像匹配方法流程图;
图5为本发明中一种异源图像匹配方法的匹配结果示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
实施例一:
参照图1,一种异源图像匹配模型的训练方法,包括步骤:
步骤A,获取训练图像数据集并进行预处理。训练图像数据集包括开源图像数据集,如ImageNet,COCO等、连续图像数据集,即从视频中抽取的连续图像帧,抽取的视频帧之间在时间上相隔2秒、为了增加困难样本,提高本发明方法应对困难场景的能力、真实图像数据集,即根据实际使用场景收集的类似的场景数据集。预处理包括图像清洗以及图像转换,图像清洗即清除数据集中没有明显纹理特征的图像,图像转换即将图像转换成单通道的灰度图像。
步骤B,搭建异源图像匹配网络模型。
参照图2,搭建的异源图像匹配网络模型包括依次连接的下采样区和上采样区,所述下采样区与上采样区通过跳跃连接模块连接;所述下采样区包括依次连接的多级下采样块,每一级下采样块均包括依次连接的卷积模块和最大池化层,所述上采样区包括依次连接的多级上采样块,每一级上采样块均包括依次连接的反卷积层和加权拼接层。
搭建的异源图像匹配网络模型中,第一级下采样块中的第一卷积模块与第一级上采样块中的加权拼接层连接,第二级下采样块中的第二卷积模块与第二级上采样块中的加权拼接层连接,第三级下采样块中的第三卷积模块与第三级上采样块中的加权拼接层连接,第四级下采样块中的第四卷积模块与第四级上采样块中的加权拼接层连接,第四级下采样块中的最大池化层与第五级上采样块中的加权拼接层连接。
其中,卷积模块,均包括依次连接的两层卷积层和批归一化层,即BN层以及激活函数,最大池化层为卷积核为2*2,步长为2的卷积操作。跳跃连接模块将下采样区的特征图与上采样区的特征图进行连接,实现了特征图的直接传递,避免在上采样过程中丢失信息。跳跃连接的实现方式有多种,例如通过拼接、加法、乘法等方式将下采样区的特征图与上采样区的特征图进行合并。跳跃连接的作用是促进信息的传递和特征的重用,从而可以提高网络的性能和泛化能力。
参照图3,在搭建的网络中,训练图像依次通过下采样区、跳跃连接模块以及上采样区。
具体地,在下采样区中,输入的训练图像为3通道图像,图像宽和高分别为W和H,本实施例中取W=640,H=640。训练图像依次通过第一级下采样块的第一层卷积层中C*3*3,步长即stride为2的卷积核进行卷积,以得到C*W/2*H/2的特征图;通过第二层卷积层中(C+1)*3*3,步长为1的卷积核进行卷积,以得到(C+1)*W/2*H/2的第一特征图;通过最大池化层中3*3,步长为2的卷积核进行卷积,以得到(C+1)*W/4*H/4的特征图,第一卷积模块包括依次连接的第一层卷积层和第二层卷积层。
训练图像依次通过第二级下采样块的第二卷积模块进行卷积,以得到(2C+1)*W/4*H/4的第二特征图;通过最大池化层中3*3,步长为2的卷积核进行卷积,以得到(2C+1)*W/8*H/8的特征图。
训练图像依次通过第三级下采样块的第三卷积模块进行卷积,以得到(4C+1)*W/8*H/8的第三特征图;通过最大池化层中3*3,步长为2的卷积核进行卷积,以得到(4C+1)*W/16*H/16的特征图。
训练图像依次通过第四级下采样块的第四卷积模块进行卷积,以得到(8C+1)*W/16*H/16的第四特征图;通过最大池化层中3*3,步长为2的卷积核进行卷积,以得到(8C+1)*W/32*H/32的第五特征图。
训练图像依次通过第五级下采样块的第五卷积模块中(16C+1)*3*3,步长为1的卷积核进行卷积,以得到(16C+1)*W/32*H/32的第六特征图;通过最大池化层中3*3,步长为2的卷积核进行卷积,以得到(16C+1)*W/64*H/64的特征图。
偏置项(bias)是神经网络中的一个可学习参数,用于调整模型的输出值,每个卷积核都会产生一个输出特征图,其中的每个像素值都是由卷积核在输入特征图上滑动加权求和得到的,偏置项1就是在这个基础上增加一个常数值,用于调整输出特征图的偏移量。
在跳跃连接模块中,训练图像依次通过卷积层、反卷积层以及加权拼接层:通过卷积层中32C*3*3,步长为1的卷积核进行卷积,以得到32C*W/64*H/64的特征图;通过反卷积层中16C*3*3,步长为2的卷积核进行反卷积操作,以得到16C*W/32*H/32的特征图;通过加权拼接层,与五级下采样块中第五卷积模块卷积得到的第六特征图一起进行加权通道拼接,以得到16C*W/32*H/32的拼接特征图。
其中,加权通道特征拼接是将五级下采样块中第五卷积模块卷积得到的第六特征图(16C+1)*W/32*H/32的最后一个通道,即偏置项作为权重w,剩余的16C个通道的每个特征值乘以对应位置的权重,再与反卷积得到的16C*W/32*H/32的特征图进行拼接,以得到16C*W/32*H/32的拼接特征图。
在上采样区中,训练图像依次通过第五级上采样块以及其余级上采样块,第五级上采样块包括依次连接的卷积层和加权拼接层,其余级上采样块均包括依次连接的反卷积层和加权拼接层。
训练图像依次通过第五级上采样块的卷积层和加权拼接层,通过卷积层中8C*3*3,步长为2的卷积核进行卷积,以得到8C*W/32*H/32的特征图;与第五特征图(8C+1)*W/32*H/32一起进行拼接,以得到8C*W/32*H/32的特征图。
训练图像依次通过第四级上采样块的反卷积层和加权拼接层,通过反卷积层中8C*3*3,步长为2的卷积核进行反卷积,以得到8C*W/16*H/16的特征图,与第四特征图(8C+1)*W/16*H/16一起进行拼接,以得到8C*W/16*H/16的特征图。
训练图像依次通过第三级上采样块的反卷积层和加权拼接层,通过反卷积层中4C*3*3,步长为2的卷积核进行反卷积,以得到4C*W/8*H/8的特征图,与第三特征图(4C+1)*W/8*H/8一起进行拼接,以得到4C*W/8*H/8的特征图。
训练图像依次通过第二级上采样块的反卷积层和加权拼接层,通过反卷积层中2C*3*3,步长为2的卷积核进行反卷积,以得到2C*W/4*H/4的特征图,与第二特征图(2C+1)*W/4*H/4一起进行拼接,以得到2C*W/4*H/4的特征图。
训练图像依次通过第一级上采样块的第一反卷积层、加权拼接层以及第二反卷积层,通过第一反卷积层中C*3*3,步长为2的卷积核进行反卷积,以得到C*W/2*H/2的特征图;与第一特征图(C+1)*W/2*H/2一起进行拼接,以得到C*W/2*H/2的特征图;通过第二反卷积层中C*3*3,步长为2的卷积核进行反卷积,以得到C*W/*H/的第七特征图。
在本发明的另一种优选实施方式中,网络中的反卷积操作也可替换为线性插值操作。
第七特征图的维度为C*W*H,然后经过27*3*3,步长为1的卷积操作,得到维度为27*W*H,即27*640*640的输出特征图,输出特征图的每个网格为27维向量,分为9组,每组3个元素记为(p,x,y),p表示存在关键点的概率,x,y分别表示关键点的坐标值。
进一步地,网络可以是ResNet、VGG以及MatchNet等成熟的网络。
步骤C,从获取的训练图像数据集中随机选取两张不同的图像,记为第一图像和第二图像,第一图像上随机截取一个随机大小的第一矩形截图,标记第一矩形截图的关键点。标记矩形截图在图像上的关键点后,还对截图进行图像处理,以得到变换截图,图像处理方法包括随机亮度变化、随机对比度变化、随机遮挡区域以及随机添加噪声。对第一图像进行处理,以得到背景图像。在第二图像上与第一图像的相同位置处截取第二矩形截图,标记第二矩形截图的关键点。
标记的关键点包括矩形截图左上角点(x1,y1)、矩形截图右上角点(x2,y2)、矩形截图左下角点(x3,y3)、矩形截图右下角点(x4,y4)、矩形截图左上区域中心点(x5,y5)、矩形截图右上区域中心点(x6,y6)、矩形截图左下区域中心点(x7,y7)、矩形截图右下区域中心点(x8,y8)以及矩形截图中心点(x9,y9)。
步骤D,对背景图像和第一矩形截图进行图像通道拼接,得到第一混合图像,对背景图像和矩形截图进行图像通道拼接之前,还对背景图像进行图像处理,对矩形截图进行缩放处理。
对背景图像进行图像处理:图像处理方式包括随机亮度变化,随机对比度变换、随机选取一块区域进行遮挡、随机添加噪声、随机生成单应性矩阵进行透视变换、平移变换、旋转变换并将图像缩放至W*H大小得到背景图像。对矩形截图进行缩放处理:缩放后图像大小为W*H的图像,以得到尺寸大小和背景图像一致的处理后的矩形截图。第一混合图像的通道一为背景图像、通道二和通道三均为第一矩形截图。对背景图像和第二矩形截图进行图像通道拼接,得到第二混合图像,第二混合图像的通道一为背景图像、通道二和通道三均为第二矩形截图。
步骤E,将获取的第一混合图像和第二混合图像输入搭建好的网络进行前向推理,以得到多个关键点以及多个关键点对应的预测值,并计算损失函数,重复迭代执行步骤C至步骤D,直至损失函数收敛至预设值,以得到训练好的异源图像匹配模型。
进一步地,判断是否达到预设训练次数,若达到训练次数,则停止训练,否则重复迭代执行步骤C至步骤D。
训练图像数据集包括开源图像数据集、连续图像数据集、真实图像数据集,网络模型的训练过程包括预训练和修正训练,利用开源图像数据集、连续图像数据集进行预训练,利用真实图像数据集进行修正训练,进行修正训练时,冻结除了最后两层以外的其他网络参数,使其在迭代训练过程中不更新。
损失函数,记为L的计算式为:
L=λ1Lcon+λ2Lloc
其中,Lcon表示位置是否存在关键点的损失值,λ1表示位置是否存在关键点的损失值的权重,Lloc表示关键点坐标的损失值,λ2表示关键点坐标的损失值的权重,c表示是否存在关键点的真值,p表示是否存在关键点的预测值,xi表示第i个关键点的横坐标的真值,yi表示第i个关键点的纵坐标的真值,表示第i个关键点的横坐标的预测值,/>表示第i个关键点的纵坐标的预测值。
实施例二:
实施例二与实施一的步骤基本相同,区别在于,步骤B中,图像宽W和图像高H均为64的整数倍。
实施例三:一种异源图像匹配方法
参照图5,为了验证本方法的匹配效果,获取了测试数据集,对本发明方法进行测试试验验证。原图为一张分辨率为763*1067的RGB三通道彩色图像,记为第一图像,参照图4左,第二张图为分辨率为172*147的红外图像,记为第二图像,参照图4右,包括步骤:
步骤S1,获取待匹配图像并进行预处理,所述待匹配图像包括第一图像和第二图像;
步骤S2,将第一图像和第二图像进行拼接,以得到三通道图像,通道一为第一图像,通道二和通道三为第二图像;
步骤S3,将三通道图像输入异源图像匹配模型中进行前向推理,以得到多个关键点以及多个关键点对应的预测值;
步骤S4,若存在预设个数以上关键点的预测值均不大于预设数值,则根据得到的多个关键点计算得到单应性变换矩阵,并基于单应性变换矩阵对第一图像进行变换,以得到变换图像,将变换图像作为新的第二图像并返回执行步骤S2,若不存在,则执行步骤S5;
步骤S5,根据得到的多个关键点计算得到单应性变换矩阵,并根据单应性变换矩阵对三通道图像进行变换,以得到第一图像和第二图像的匹配关系。并根据匹配关系把近红外测试图像叠加在RGB彩色测试图像上,得到的匹配结果如图5所示。
图5中圆圈的大小表示匹配点的置信度大小,圆圈越大匹配点的置信度越高。从上图的匹配结果可以发现,两张不同大小,不同成像特点的图像可以正确的得到匹配,说明本发明方法的有效性。
与现有技术相比,本发明能够应对异源图像匹配的场景,且利用深度卷积神经网络强大的图像特征提取能力,能获得更加准确的结果,能够端到端的实现从图像输入到结果输出,耗时短、实时性强。
实施例四:
一种计算机可读存储介质,存储有计算机指令,计算机指令用于使计算机执行如实施例一提出的一种异源图像匹配模型的训练方法。
实施例五:
一种电子设备,包括存储器和处理器,存储器和处理器之间互相通信连接,存储器存储有计算机指令,处理器通过执行计算机指令,从而执行如实施例一提出的一种异源图像匹配模型的训练方法。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围内。
Claims (10)
1.一种异源图像匹配模型的训练方法,其特征在于,包括步骤:
A,获取训练图像数据集并进行预处理;
B,搭建异源图像匹配网络模型;
C,从获取的训练图像数据集中随机选取两张不同的图像,记为第一图像和第二图像,第一图像上随机截取一个随机大小的第一矩形截图,标记第一矩形截图的关键点;对第一图像进行处理,以得到背景图像;在第二图像上与第一图像的相同位置处截取第二矩形截图,标记第二矩形截图的关键点;
D,对背景图像和第一矩形截图进行图像通道拼接,得到第一混合图像,所述第一混合图像的通道一为背景图像、通道二和通道三均为第一矩形截图;对背景图像和第二矩形截图进行图像通道拼接,得到第二混合图像,所述第二混合图像的通道一为背景图像、通道二和通道三均为第二矩形截图;
E,将获取的第一混合图像和第二混合图像输入搭建好的网络进行前向推理,以得到多个关键点以及多个关键点对应的预测值,并计算损失函数,重复迭代执行步骤C至步骤D,直至损失函数收敛至预设值,以得到训练好的异源图像匹配模型。
2.根据权利要求1所述的一种异源图像匹配模型的训练方法,其特征在于,步骤C中,所述标记的关键点包括矩形截图左上角点、矩形截图右上角点、矩形截图左下角点、矩形截图右下角点、矩形截图左上区域中心点、矩形截图右上区域中心点、矩形截图左下区域中心点、矩形截图右下区域中心点以及矩形截图中心点。
3.根据权利要求2所述的一种异源图像匹配模型的训练方法,其特征在于,步骤C中,标记矩形截图在图像上的关键点后,还对截图进行图像处理,以得到变换截图,所述图像处理方法包括随机亮度变化、随机对比度变化、随机遮挡区域以及随机添加噪声。
4.根据权利要求3所述的一种异源图像匹配模型的训练方法,其特征在于,步骤D中,对背景图像和矩形截图进行图像通道拼接之前,还对背景图像进行图像处理;对矩形截图进行缩放处理,以得到尺寸大小和背景图像一致的处理后的矩形截图。
5.根据权利要求1所述的一种异源图像匹配模型的训练方法,其特征在于,步骤E中,所述损失函数,记为L的计算式为:
L=λ1Lcon+λ2Lloc
其中,Lcon表示位置是否存在关键点的损失值,λ1表示位置是否存在关键点的损失值的权重,Lloc表示关键点坐标的损失值,λ2表示关键点坐标的损失值的权重,c表示是否存在关键点的真值,p表示是否存在关键点的预测值,xi表示第i个关键点的横坐标的真值,yi表示第i个关键点的纵坐标的真值,表示第i个关键点的横坐标的预测值,/>表示第i个关键点的纵坐标的预测值。
6.根据权利要求1所述的一种异源图像匹配模型的训练方法,其特征在于,步骤A中,所述预处理包括图像清洗以及图像转换,所述图像清洗即清除数据集中没有明显纹理特征的图像,所述图像转换即将图像转换成单通道的灰度图像。
7.根据权利要求1所述的一种异源图像匹配模型的训练方法,其特征在于,步骤B中,搭建的异源图像匹配网络模型包括依次连接的下采样区和上采样区,所述下采样区与上采样区通过跳跃连接模块连接;所述下采样区包括依次连接的多级下采样块,每一级下采样块均包括依次连接的卷积模块和最大池化层,所述上采样区包括依次连接的多级上采样块,每一级上采样块均包括依次连接的反卷积层和加权拼接层。
8.根据权利要求7所述的一种异源图像匹配模型的训练方法,其特征在于,步骤B中,搭建的异源图像匹配网络模型中,第一级下采样块中的第一卷积模块与第一级上采样块中的加权拼接层连接,第二级下采样块中的第二卷积模块与第二级上采样块中的加权拼接层连接,第三级下采样块中的第三卷积模块与第三级上采样块中的加权拼接层连接,第四级下采样块中的第四卷积模块与第四级上采样块中的加权拼接层连接,第四级下采样块中的最大池化层与第五级上采样块中的加权拼接层连接。
9.一种异源图像匹配方法,其特征在于,使用如权利要求1至8任一项所述的训练方法训练好的异源图像匹配模型对两张图像进行匹配,包括步骤:
S1,获取待匹配图像并进行预处理,所述待匹配图像包括第一图像和第二图像;
S2,将第一图像和第二图像进行拼接,以得到三通道图像,通道一为第一图像,通道二和通道三为第二图像;
S3,将三通道图像输入异源图像匹配模型中进行前向推理,以得到多个关键点以及多个关键点对应的预测值;
S4,若存在预设个数以上关键点的预测值均不大于预设数值,则根据得到的多个关键点计算得到单应性变换矩阵,并基于单应性变换矩阵对第一图像进行变换,以得到变换图像,将变换图像作为新的第二图像并返回执行步骤S2,若不存在,则执行步骤S5;
S5,根据得到的多个关键点计算得到单应性变换矩阵,并根据单应性变换矩阵对三通道图像进行变换,以得到第一图像和第二图像的匹配关系。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1至8任一项所述的一种异源图像匹配模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310702011.3A CN116740399A (zh) | 2023-06-13 | 2023-06-13 | 异源图像匹配模型的训练方法、匹配方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310702011.3A CN116740399A (zh) | 2023-06-13 | 2023-06-13 | 异源图像匹配模型的训练方法、匹配方法及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740399A true CN116740399A (zh) | 2023-09-12 |
Family
ID=87910996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310702011.3A Pending CN116740399A (zh) | 2023-06-13 | 2023-06-13 | 异源图像匹配模型的训练方法、匹配方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740399A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392283A (zh) * | 2023-12-05 | 2024-01-12 | 北京交通大学 | 异常轨道图像合成方法、装置、设备及可读介质 |
-
2023
- 2023-06-13 CN CN202310702011.3A patent/CN116740399A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392283A (zh) * | 2023-12-05 | 2024-01-12 | 北京交通大学 | 异常轨道图像合成方法、装置、设备及可读介质 |
CN117392283B (zh) * | 2023-12-05 | 2024-04-05 | 北京交通大学 | 异常轨道图像合成方法、装置、设备及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | Blind super-resolution with iterative kernel correction | |
CN111476737B (zh) | 一种图像处理方法、智能设备及计算机可读存储介质 | |
EP3427195B1 (en) | Convolutional neural networks, particularly for image analysis | |
Ren et al. | Single image super-resolution via adaptive high-dimensional non-local total variation and adaptive geometric feature | |
JP7146372B2 (ja) | 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体 | |
CN112446383A (zh) | 车牌识别方法及装置、存储介质、终端 | |
CN108961180B (zh) | 红外图像增强方法及系统 | |
CN109949224B (zh) | 一种基于深度学习的联级超分辨率重建的方法及装置 | |
CN113221869B (zh) | 医疗发票结构化信息提取方法、装置设备及存储介质 | |
CN111553867B (zh) | 一种图像去模糊方法、装置、计算机设备及存储介质 | |
US20220335571A1 (en) | Methods and systems for super resolution for infra-red imagery | |
CN110348531B (zh) | 具有分辨率适应性的深度卷积神经网络构建方法及应用 | |
CN116994140A (zh) | 基于遥感影像的耕地提取方法、装置、设备和介质 | |
CN111986092B (zh) | 一种基于双重网络的图像超分辨率重建方法及系统 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN111696038A (zh) | 图像超分辨率方法、装置、设备及计算机可读存储介质 | |
Wei et al. | Deep unfolding with normalizing flow priors for inverse problems | |
CN112801904A (zh) | 一种基于卷积神经网络的混合退化图像增强方法 | |
CN116740399A (zh) | 异源图像匹配模型的训练方法、匹配方法及介质 | |
CN117575915B (zh) | 一种图像超分辨率重建方法、终端设备及存储介质 | |
CN113538402A (zh) | 一种基于密度估计的人群计数方法及系统 | |
CN110782398A (zh) | 一种图像处理方法、生成式对抗网络、电子设备及存储介质 | |
CN117372484A (zh) | 一种基于深度自注意力网络的脑部核磁共振图像配准方法和装置 | |
CN117372359A (zh) | 一种融合空间注意力机制的田间水稻植株计数估计方法及装置 | |
CN116935051A (zh) | 一种息肉分割网络方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |