CN114429555A - 由粗到细的图像稠密匹配方法、系统、设备及存储介质 - Google Patents

由粗到细的图像稠密匹配方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN114429555A
CN114429555A CN202210064631.4A CN202210064631A CN114429555A CN 114429555 A CN114429555 A CN 114429555A CN 202210064631 A CN202210064631 A CN 202210064631A CN 114429555 A CN114429555 A CN 114429555A
Authority
CN
China
Prior art keywords
image
matching
optical flow
pixel
source image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210064631.4A
Other languages
English (en)
Inventor
王子磊
宋文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210064631.4A priority Critical patent/CN114429555A/zh
Publication of CN114429555A publication Critical patent/CN114429555A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种由粗到细的图像稠密匹配方法、系统、设备及存储介质,粗匹配时,使用RANSAC对源图像和目标图像之间的候选稀疏对进行拟合得到单应性估计矩阵,进行全局配准完成对象的粗略定位,克服因尺度、旋转以及视角等几何变换差异引起的匹配不准确问题;粗匹配后的图像,通过光流估计网络生成可匹配区域的光流场预测,完成对象细节的匹配,克服颜色、外观以及纹理不同带来的影响。上述由粗到细的图像稠密匹配方案具有较好的泛化能力,不仅能解决弱纹理、无纹理、重复纹理、大视差、大前景干扰图像对的稠密匹配问题,而且在类内差异较大以及不同模态的待配准图像对上都能够达到像素级对齐,充分证明了而本发明方法具有很好的应用前景和应用价值。

Description

由粗到细的图像稠密匹配方法、系统、设备及存储介质
技术领域
本发明涉及图像稠密匹配技术领域,尤其涉及一种由粗到细的图像稠密匹配方法、系统、设备及存储介质。
背景技术
图像匹配技术作为计算机视觉的重要方向之一,其目的在于快速准确地建立相似对象或者场景之间的对应关系,将已知图像的信息通过估计的对应关系转移到新图像上。这样不仅可以直接获取新图像的各类信息,而且还能辅助其他视觉任务的执行。
根据匹配方式,图像匹配技术大致可被分为图像特征点匹配和图像稠密匹配两类。图像特征点匹配先提取图像中的特征点,然后在另一张图中寻求匹配的对应点,以此来建立两张图之间的对应关系。由于图像特征点匹配仅能够估计图像之间的整体相似关系,而无法确定局部的对应关系,因此很难将已知图像的信息转移到新图像中。为了获取更加精确的对应关系,图像稠密匹配应运而生。图像稠密匹配主要目的是建立图像之间的像素级匹配关系,寻求源图像中每个像素在目标图像中的对应像素,从而将已知图像的属性转移到新的图像上。
在已有的图像稠密匹配方法中,专利《一种适合变形图像的稠密匹配方法》(公开号CN106023230A)在人工提取匹配特征点对的基础上,将多项式纠正和坐标对应关系保存机制用于变形图像的稠密匹配,该方法的人工成本较高且鲁棒性较差,限制了图像匹配技术的应用;专利《一种基于稀疏匹配与图像边缘的稠密匹配方法与系统》(公开号CN106548482A)结合边缘检测得到的边缘图像和稀疏匹配得到的特征点视差值来进行图像匹配,其在弱纹理区域无法精确寻找到像素匹配点,且细节匹配效果较差;专利《一种基于非刚性稠密匹配的图像光流估计方法及系统》(公开号CN108986150A)将两帧图像进行稠密块匹配,通过计算图像间非刚性稠密运动场以及变分光流来预测对象的运动信息,时间和空间消耗较大,且对真实场景中大视差、大位移图像对的泛化能力较差。
上述已有的图像稠密匹配方法存在很多亟待解决的问题:1)如何在大尺度空间变换的情况下准确地计算图像间的稠密匹配关系;2)如何有效地感知对象的结构信息从而提高鲁棒性;3)如何在图像细节上得到较好的表现效果;4)如何克服语义鸿沟,在内容、灰度、纹理等方面存在较大差异的不同域图像上实现像素级匹配。因此,设计一套的技术方案来提高图像稠密匹配的准确性和鲁棒性具有重要的实用价值和现实意义。
发明内容
本发明的目的是提供一种由粗到细的图像稠密匹配方法、系统、设备及存储介质,能够实现不同尺度、不同角度、不同场景下的图像稠密匹配,正确地估计图像中每个像素的对应关系,提升图像稠密匹配的鲁棒性和泛化能力。
本发明的目的是通过以下技术方案实现的:
一种由粗到细的图像稠密匹配方法,其特征在于,包括:
全局配准阶段:通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理,利用处理得到的单应性估计矩阵对所述源图像进行变换,获得变换后的源图像;
像素匹配阶段:通过光流估计网络预测变换后的源图像与所述目标图像的光流场,利用所述光流场对变换后的源图像进行光流映射,实现图像稠密匹配。
一种由粗到细的图像稠密匹配系统,基于前述方法实现,该系统包括:
全局配准的粗匹配模块,应用于全局配准阶段,通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理,利用处理得到的单应性估计矩阵对所述源图像进行变换,获得变换后的源图像;
像素匹配的细对齐模块,应用于像素匹配阶段,通过光流估计网络预测变换后的源图像与所述目标图像的光流场,利用所述光流场对变换后的源图像进行光流映射,实现图像稠密匹配。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,采用粗匹配到细对齐的分层匹配策略来估计光流场,克服几何变换无法进行像素对齐以及光流配准无法解决大位移的局限性问题,使得稠密匹配更加准确和鲁棒;具体地,粗匹配时,使用RANSAC(随机抽样一致算法)对源图像和目标图像之间的候选稀疏对进行拟合得到单应性估计矩阵,进行全局配准完成对象的粗略定位,克服因尺度、旋转以及视角等几何变换差异引起的匹配不准确问题;给定两个粗略对齐后的图像,通过光流估计网络生成可匹配区域的光流场预测,完成对象细节的匹配,克服颜色、外观以及纹理不同带来的影响。上述由粗到细的图像稠密匹配方案具有较好的泛化能力,不仅能解决弱纹理、无纹理、重复纹理、大视差、大前景干扰图像对的稠密匹配问题,而且在类内差异较大以及不同模态的待配准图像对上都能够达到像素级对齐,充分证明了本发明方法具有很好的应用前景和应用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种由粗到细的图像稠密匹配方法的处理流程图;
图2为本发明实施例提供的一种由粗到细的图像稠密匹配整体流程示意图;
图3为本发明实施例提供的一种由粗到细的图像稠密匹配训练过程图;
图4为本发明实施例提供的一种由粗到细的图像稠密匹配训练数据集插图;
图5为本发明实施例提供的一种由粗到细的图像稠密匹配结果示意图;
图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种由粗到细的图像稠密匹配方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
实施例一
本发明实施例提供一种由粗到细的图像稠密匹配方法,它解决不同尺度、不同角度、不同场景下的图像稠密匹配问题,正确地估计图像中每个像素的对应关系,提升模型的鲁棒性和泛化能力。该方法主要包括两个阶段:
1)全局配准阶段:通过随机抽样一致算法(RANSAC)对源图像与目标图像的多尺度的特征匹配点对进行处理,利用处理得到的单应性估计矩阵对所述源图像进行变换,获得变换后的源图像。
2)像素匹配阶段:通过光流估计网络预测变换后的源图像与所述目标图像的光流场(即两张图像间每个像素的相对位移),利用所述光流场对变换后的源图像进行光流映射,实现图像稠密匹配。
本发明实施例中,为了保证图像稠密匹配效果,光流估计网络以端到端的方式训练,训练时通过自监督训练来优化扭曲源图像像素点与目标图像之间的结构相似度度量和图像一致性,能够在不依赖亮度恒定假设的情况下将对齐细化到像素级;同时,为了加快模型收敛以及对图像的对齐效果进行像素级衡量,利用匹配度掩码作为重建损失和一致性损失的像素级权重,匹配度掩码主要对图像的对齐效果进行像素级度量,并且作为未对齐像素点的权重。训练完毕后,像素匹配阶段,直接利用像素级对齐变换光流场对变换后的源图像进行光流映射(如双线性插值算法),建立源图像和目标图像之间像素级的对应关系,从而完成图像稠密匹配。
本发明实施例中,光流场为矩阵形式数据,其尺寸与源图像和目标图像相同,光流场中每一位置元素值表示变换后的源图像与目标图像相应位置像素的相对位移量。
如图1所示,展示了一种由粗到细的图像稠密匹配方法的处理流程。
为了便于理解,下面针对上述两个阶段的优选实施方式,以及模型训练过程做详细的介绍。
一、全局配准。
本发明实施例中,利用卷积神经网络构建源图像Is和目标图像It的特征矩阵,为了更好的将局部信息和全局信息进行有效的融合,固定源图像Is和目标图像It的纵横比进行多尺度的缩放,按多个不同尺度提取特征并进行维度变换;将变换维度后的多个尺度特征进行拼接得到特征矩阵,对特征矩阵进行点积后得到行列值均为最大的索引值,即特征匹配点对。
之后,利用随机抽样一致算法(RANSAC)得到单应性估计变换矩阵后对源图像进行几何变换,将变换后的源图像Is′和目标图像It一起输入到光流网络进行细对齐。
二、像素匹配。
总体流程可以描述为:利用光流估计网络预测的变换后的源图像与所述目标图像的光流场,利用光流场对变换后的源图像进行光流映射,建立源图像和目标图像之间像素级的对应关系,从而完成图像稠密匹配。
具体来说:像素匹配阶段包括光流估计与光流映射两部分,光流估计计算两张有相对位移的图像间每个像素的相对位移,光流映射则使用光流将待配准图像中源图像映射向目标图像完成细对齐。
1)光流估计。
在光流估计中为了较好整合图像对间的特征图信息,计算一个相似张量量化描述两组特征间的相关关系:变换后的源图像Is′与目标图像It分别经过一个全卷积层进行特征提取,得到相应的特征映射,变换后的源图像Is′的特征映射记为fs,目标图像It的特征映射记为ft;对特征映射fs与ft进行归一化,得到归一化后的特征映射fs′与ft′;将归一化后的特征映射fs′中每个位置的向量fs′(x′,y′)与归一化后的特征映射ft′中D=2k+1领域内的向量ft′(x,y)做点积,得到相似张量,尺寸为w×h×(2k+1)2;其中,k为一个系数,用来保证领域D(即D*D范围)为奇数,w与h分别为特征映射的宽与高,(x,y)为目标图像It中像素的位置坐标,(x′,y′)为变换后的源图像Is′中相应像素的位置坐标;所述相似张量分别经过全卷积预测网络的两个分支得到光流场和匹配度掩码。训练与使用时的流程相同,区别在于,使用时不再需要匹配度掩码。
2)光流映射。
训练与使用时的光流映射方式相同,都利用光流场对全局配准得到变换后的源图像进行光流映射,建立源图像和目标图像之间像素级的对应关系。
通过前述光流估计部分的介绍可知,同一像素在变换后的源图像Is′与目标图像It的位置坐标是不同的,依次为(x′,y′)、(x,y),因此,通过利用光流场将变换后的源图像Is′中像素位置坐标由(x′,y′)映射至(x,y),同时,最初输入的源图像与目标图像的尺寸相同,因此,(x′,y′)与(x,y)取值区间完全相同。光流映射表示为:
(x,y)=Fs→t(x′,y′)
通过上式在变换后的源图像Is′中寻找与目标图像It中的像素对应的像素(位置坐标为(x′,y′)),并映射到与目标图像It对齐的位置(x,y);上式中,Fs→t表示光流映射函数利用光流场F将变换后的源图像Is′逐像素移动至目标图像It相应像素的位置,同一像素在光流映射后的源图像
Figure BDA0003479620140000061
与目标图像It的位置坐标相同,因此,可统一表示为(x,y)。
如图2所示,展示了由粗到细的图像稠密匹配整体流程,图2中CNN为深度神经网络,H表示单应性估计矩阵,全局配准的粗匹配模块执行全局配准阶段的流程,像素匹配的细对齐模块执行像素匹配阶段的流程。
三、模型训练。
本发明实施例中,模型主要是指实现图像稠密匹配的网络模型,称为图像稠密匹配模型,主要包括全局配准阶段使用的卷积神经网络,以及像素匹配阶段使用的光流估计网络,二者都属于深度神经网络。
本发明实施例中,卷积神经网络可以利用在ImageNet数据上预训练好的ResNet-50网络实现,通过预训练好的ResNet-50网络的conv4层来直接获取对应特征,而且无需进行训练更新网络的模型参数。也即模型训练,主要针对光流估计网络进行。
本发明实施例中,损失函数联合重建损失和图像一致性损失作为无监督损失函数对光流估计网络进行训练,图3展示了主要的训练过程。光流估计网络以端到端的方式训练,输入为通过全局配准的两张图像,即变换后的源图像与目标图像,输出为两张图像的光流场,通过光流映射将源图像向目标图像对齐得到配准结果
Figure BDA0003479620140000062
为了使网络模型更快更好地收敛,引入衡量图像像素级对齐效果的匹配度掩码Mt(x,y)=Mt→s(x,y)Ms→t(x′,y′)作为损失函数的权重值,匹配度掩码是与图像像素结构相同的矩阵,通过计算变换后的源图像与目标图像相似度得到,其中,Ms→t(x′,y′)表示变换后的源图像Is′到目标图像It的匹配度,Mt→s(x,y)表示目标图像It到变换后的源图像Is′的匹配度,匹配度越接近1表示像素对齐效果越好。
本发明实施例中,损失函数计算两张图像像素匹配后的重建损失和图像一致性损失。
1)所述重建损失使得两张图像的亮度差最小并且惩罚光流的突变,表示为:
Figure BDA0003479620140000071
上式最小化配准后两图像的亮度差和惩罚光流的突变来确保图像对的一致性,
Figure BDA0003479620140000072
表示光流映射后的源图像
Figure BDA0003479620140000073
与目标图像It的结构相似性,(x,y)表示像素的位置坐标,SSIM为范围-1到1的结构相似性指标,当两张图像相等时,SSIM的值为1。
2)图像一致性损失用于使局部平滑而保持图像结构对齐的边缘,表示为:
Figure BDA0003479620140000074
其中,||.||2表示L2范数。
3)损失函数为综合上述两部分损失,表示为:
Figure BDA0003479620140000075
其中,α1为图像一致性损失
Figure BDA0003479620140000076
的权重。
利用上述损失函数
Figure BDA0003479620140000077
优化光流估计网络的参数,优化流程可参照常规技术实现,本发明不做赘述。
本发明实施例上述方案,采用粗匹配到细对齐的分层匹配策略来估计光流场,克服几何变换无法进行像素对齐以及光流配准无法解决大位移的局限性问题,使得稠密匹配更加准确和鲁棒;具体地,粗匹配时,使用RANSAC(随机抽样一致算法)对源图像和目标图像之间的候选稀疏对进行拟合得到单应性估计矩阵,进行全局配准完成对象的粗略定位,克服因尺度、旋转以及视角等几何变换差异引起的匹配不准确问题;给定两个粗略对齐后的图像,通过光流估计网络生成可匹配区域的光流场预测,完成对象细节的匹配,克服颜色、外观以及纹理不同带来的影响。上述由粗到细的图像稠密匹配方案具有较好的泛化能力,不仅能解决弱纹理、无纹理、重复纹理、大视差、大前景干扰图像对的稠密匹配问题,而且在类内差异较大以及不同模态的待配准图像对上都能够达到像素级对齐,充分证明了本发明方法具有很好的应用前景和应用价值。
基于上述的介绍说明,下面做一个综合说明,下述综合说明包含了数据集构建、图像稠密匹配方法、模型训练、模型使用四大部分。值得注意的是,下述综合说明中所涉及的图像内容、尺寸、各项网络参数、训练时设定的各项参数等均为举例。
1、数据集构建。
由于整个图像稠密匹配模型只需要训练光流估计网络,而光流估计方法需要满足小位移假设,即局部光流值不应过大,因此利用完成全局配准阶段的待配准图像对的粗略定位。通过设置匹配特征点对数的阈值,若待配准图像对经过全局配准阶段的特征提取和特征匹配后的匹配特征点高于该阈值,则将其进行几何变换后作为光流估计网络的训练集和验证集,否则将其舍弃。
作为示例,待配准图像对来自一个从可变移动视频中获得的图像拼接数据集UDIS-D,通过提取不同间隔时间的视频帧,得到了不同重叠率(位移大小)的图像对,如图4的(b)部分所示,为不同重叠率的图像对示例;而且这些视频并不是由绕光心旋转的摄像机拍摄的,拍摄的场景也远不是平面结构,这意味着该数据集包含了不同程度的视差,如图4的(c)部分所示,为不同视差的图像对示例。此外,该图像拼接数据集包括室内、室外、夜晚、黑暗、下雪、缩放等可变场景,如图4的(a)部分所示,为可变场景的图像对示例。阈值可设置为100,共得到10440对训练集和1106对验证集,本发明涉及的卷积神经网络都是基于三维数据的,因此无需在维度上改变原始的图像。因为图像间的灰度分布是参差不一的,所以本发明对图像进行了归一化处理,对图像中的灰度值进行线性变换,将图像灰度值映射到区间[0,1]内。
2、图像稠密匹配方法。
整体流程还可参见图1,图像预处理主要将源图像和目标图像按一定最小尺寸进行缩放后送入卷积神经网络进行不同尺度下采样得到特征矩阵,尺度大的特征包含了图像的全局信息描述,而尺度小的特征则包含图像细节特征的描述,结合这些特征可以更好地进行图像对间的特征点匹配。再利用经典的随机抽样一致算法(RANSAC)对一组对应特征点进行分析,拟合得到待配准图像对之间的几何变换矩阵,最后通过插值算法将源图像映射到目标图像完成全局配准得到粗匹配图像对。
作为示例,使用在ImageNet数据上预训练好的ResNet-50网络的conv4层作为下采样网络,最小尺寸为480,不同尺度比例系数为[2.0,1.66,1.33,1.0,0.83,0.66,0.5],下采样倍数为16,几何变换矩阵为单应性估计矩阵,插值算法为双线性插值。
光流估计网络接收两张存在相对位移的粗匹配图像对作为输入,首先通过四个卷积块(全卷积层)进行特征提取,每个卷积块包含卷积层、批归一化层和Relu激活函数,将归一化的特征向量进行点积运算后得到的相似张量送入全卷积预测网络,得到一定下采样倍数的稠密光流场。
作为示例,特征提取的卷积块类似于ResNet-18的conv3特征提取器,不同点在于将网络的第一个7×7卷积核替换为不带步长的3×3卷积核,为了尽量减少空间分辨率在网络中的缺失,输出的特征图是输入图像分辨率的1/8,全卷积网络由三个卷积块和一个卷积层组成。
3、稠密匹配模型训练。
如图3所示,源图像和目标图像经过稠密匹配模型后得到两幅图像的变换光流场(即待配准图像间每个像素的相对位移),再通过光流映射得到两张配准的图像
Figure BDA0003479620140000091
和It,无监督损失函数不使用任何真值标签,直接计算两张配准图像间的重建损失和图像一致性损失,最后利用损失函数通过链式法则向前逐层求导,迭代更新稠密匹配模型中网络层的参数。其中,图像重建损失以最小化配准后两图像的亮度差和惩罚光流的突变来确保图像对的结构相似性,一致性损失以使局部平滑而保持图像结构对齐的边缘。
利用构建好的数据集,使用深度学习框架,设置相应超参数,通过反向传播算法和梯度下降策略使损失函数值下降、模型收敛,最终得到训练好的图像稠密匹配模型。
作为示例,网络模型的损失函数分为两部分,即图像重建损失
Figure BDA0003479620140000092
和图像一致性损失
Figure BDA0003479620140000093
总损失函数为
Figure BDA0003479620140000094
其中,α1是图像一致性损失对应的权重,参数设置为1,光流映射中采用双线性插值法进行上采样,网络的优化方法选择随机梯度下降法,学习率大小为1e-4,优化器为Adam,权重衰减系数设置为1e-5,共训练200个epoch。
4、图像稠密匹配模型使用。
将构建好的源图像和目标图像送入训练好的图像稠密匹配模型中,分别得到待配准图像对的单应性估计矩阵和稠密变换光流场来进行全局配准和像素匹配,此过程无需使用像素匹配的细对齐模块中的匹配度掩码Mt(x,y)。
为了更好的验证本发明方法的泛化能力和应用前景,在UDIS-D数据集训练模型的基础上对多个真实复杂场景的图像匹配数据集进行微调,在微调模型上得到对应场景测试集的可视化结果。
作为示例,在内容、灰度、纹理等方面存在较大差异的跨域图像数据集上进行模型微调和正向推理得到图像稠密匹配的实验结果,如图5所示,为了很好地展示该发明方法的整体流程和各模块效果,图5中的从左至右,每一列依次对应于源图像、目标图像、全局配准的粗匹配图像对融合,像素匹配的细对齐图像对融合,原始输入的未匹配图像对融合的可视化结果,其中图像对的融合方式为两张图像各按0.5权重的像素加权。
实施例二
本发明还提供一种由粗到细的图像稠密匹配系统,其主要基于前述实施例一提供的方法实现,参见图1与图2,该系统主要包括:
全局配准的粗匹配模块,应用于全局配准阶段,通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理,利用处理得到的单应性估计矩阵对所述源图像进行变换,获得变换后的源图像;
像素匹配的细对齐模块,应用于像素匹配阶段,通过光流估计网络预测变换后的源图像与所述目标图像的光流场,利用所述光流场对变换后的源图像进行光流映射,实现图像稠密匹配。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
此外,系统中上述两个模块所涉及的相关技术细节在前述实施例一中已经做了详细介绍,故不再赘述。
实施例三
本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种由粗到细的图像稠密匹配方法,其特征在于,包括:
全局配准阶段:通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理,利用处理得到的单应性估计矩阵对所述源图像进行变换,获得变换后的源图像;
像素匹配阶段:通过光流估计网络预测变换后的源图像与所述目标图像的光流场,利用所述光流场对变换后的源图像进行光流映射,实现图像稠密匹配。
2.根据权利要求1所述的一种由粗到细的图像稠密匹配方法,其特征在于,通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理之前,还包括多尺度特征提取与特征匹配的步骤,相关步骤包括:
利用卷积神经网络构建源图像Is和目标图像It的特征矩阵,固定源图像Is和目标图像It的纵横比进行多尺度的缩放,按多个不同尺度提取特征并进行维度变换;
将变换维度后的多个尺度特征进行拼接得到特征矩阵,对特征矩阵进行点积后得到行列值均为最大的索引值,即特征匹配点对。
3.根据权利要求1所述的一种由粗到细的图像稠密匹配方法,其特征在于,训练时,像素匹配阶段包括:利用光流估计网络预测变换后的源图像与所述目标图像的光流场与匹配度掩码,利用所述光流场对变换后的源图像进行光流映射;所述匹配度掩码通过计算变换后的源图像与目标图像相似度得到,用于对图像的对齐效果进行像素级度量,并且作为未对齐像素点的权重,参与损失函数的计算。
4.根据权利要求3所述的一种由粗到细的图像稠密匹配方法,其特征在于,所述利用光流估计网络预测变换后的源图像与所述目标图像的光流场和匹配度掩码的步骤包括:
变换后的变换后的源图像Is′与目标图像It分别经过一个全卷积层进行特征提取,得到相应的特征映射,变换后的源图像Is′的特征映射记为fs,目标图像It的特征映射记为ft
对特征映射fs与ft进行归一化,得到归一化后的特征映射fs′与ft′;将归一化后的特征映射fs′中每个位置的向量fs′(x′,y′)与归一化后的特征映射ft′中D=2k+1领域内的向量ft′(x,y)做点积,得到相似张量;其中,k为一个系数,用来保证领域D为奇数;(x,y)为目标图像It中像素的位置坐标,(x′,y′)为变换后的源图像Is′中相应像素的位置坐标;
所述相似张量分别经过全卷积预测网络的两个分支得到光流场和匹配度掩码。
5.根据权利要求1所述的一种由粗到细的图像稠密匹配方法,其特征在于,利用所述光流场对变换后的源图像进行光流映射表示为:
(x,y)=Fs→t(x′,y′)
同一像素在变换后的源图像Is′与目标图像It的位置坐标不同,依次记为(x′,y′)、(x,y),通过上式在变换后的源图像Is′中寻找与目标图像It中的像素对应的像素,并映射到与目标图像It对应像素的位置坐标(x,y);上式中,Fs→t表示光流映射函数利用光流场F将变换后的源图像Is′逐像素移动至目标图像It相应像素的位置。
6.根据权利要求1或3所述的一种由粗到细的图像稠密匹配方法,其特征在于,所述光流估计网络以端到端的方式训练,输入为通过全局配准的两张图像,即变换后的源图像与目标图像,输出为两张图像的光流场与匹配度掩码;损失函数计算两张图像像素匹配后的重建损失和图像一致性损失;所述重建损失使得两张图像的亮度差最小并且惩罚光流的突变,图像一致性用于保持图像结构对齐的边缘;所述损失函数作为无监督损失函数对光流估计网络进行训练。
7.根据权利要求6所述的一种由粗到细的图像稠密匹配方法,其特征在于,所述损失函数表示为:
Figure FDA0003479620130000021
其中,
Figure FDA0003479620130000022
为重建损失,
Figure FDA0003479620130000023
为图像一致性损失,α1为图像一致性损失
Figure FDA0003479620130000024
的权重;
重建损失
Figure FDA0003479620130000025
表示为:
Figure FDA0003479620130000026
其中,Mt(x,y)表示匹配度掩码,它与图像像素结构相同,
Figure FDA0003479620130000027
表示光流映射后的源图像
Figure FDA0003479620130000028
与目标图像It的结构相似性,同一像素在光流映射后的源图像
Figure FDA0003479620130000029
与目标图像It的位置坐标相同,表示为(x,y);
图像一致性损失
Figure FDA00034796201300000210
表示为:
Figure FDA00034796201300000211
其中,||.||2表示L2范数,Fs→t表示光流映射函数利用光流场F将变换后的源图像Is′逐像素移动至目标图像It相应像素的位置,同一像素在变换后的源图像Is′与目标图像It的位置坐标不同,依次为(x′,y′)、(x,y)。
8.一种由粗到细的图像稠密匹配系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
全局配准的粗匹配模块,应用于全局配准阶段,通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理,利用处理得到的单应性估计矩阵对所述源图像进行变换,获得变换后的源图像;
像素匹配的细对齐模块,应用于像素匹配阶段,通过光流估计网络预测变换后的源图像与所述目标图像的光流场,利用所述光流场对变换后的源图像进行光流映射,实现图像稠密匹配。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202210064631.4A 2022-01-20 2022-01-20 由粗到细的图像稠密匹配方法、系统、设备及存储介质 Pending CN114429555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210064631.4A CN114429555A (zh) 2022-01-20 2022-01-20 由粗到细的图像稠密匹配方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210064631.4A CN114429555A (zh) 2022-01-20 2022-01-20 由粗到细的图像稠密匹配方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114429555A true CN114429555A (zh) 2022-05-03

Family

ID=81312454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210064631.4A Pending CN114429555A (zh) 2022-01-20 2022-01-20 由粗到细的图像稠密匹配方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114429555A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082533A (zh) * 2022-06-28 2022-09-20 北京航空航天大学 一种基于自监督的临近空间遥感图像配准方法
CN116012626A (zh) * 2023-03-21 2023-04-25 腾讯科技(深圳)有限公司 建筑立面图像的素材匹配方法、装置、设备和存储介质
CN117152221A (zh) * 2023-10-26 2023-12-01 山东科技大学 一种图像非刚性配准方法、系统、设备和存储介质
CN117314900A (zh) * 2023-11-28 2023-12-29 诺比侃人工智能科技(成都)股份有限公司 一种基于半自监督特征匹配缺陷检测方法
CN117422679A (zh) * 2023-10-20 2024-01-19 浙江大学 一种基于时序图像和稠密光流估计的裂缝变化监测方法
CN117635645A (zh) * 2023-12-08 2024-03-01 兰州交通大学 一种复杂稠密网络下的并置多尺度融合边缘检测模型
CN115082533B (zh) * 2022-06-28 2024-05-28 北京航空航天大学 一种基于自监督的临近空间遥感图像配准方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082533A (zh) * 2022-06-28 2022-09-20 北京航空航天大学 一种基于自监督的临近空间遥感图像配准方法
CN115082533B (zh) * 2022-06-28 2024-05-28 北京航空航天大学 一种基于自监督的临近空间遥感图像配准方法
CN116012626A (zh) * 2023-03-21 2023-04-25 腾讯科技(深圳)有限公司 建筑立面图像的素材匹配方法、装置、设备和存储介质
CN117422679A (zh) * 2023-10-20 2024-01-19 浙江大学 一种基于时序图像和稠密光流估计的裂缝变化监测方法
CN117422679B (zh) * 2023-10-20 2024-05-31 浙江大学 一种基于时序图像和稠密光流估计的裂缝变化监测方法
CN117152221A (zh) * 2023-10-26 2023-12-01 山东科技大学 一种图像非刚性配准方法、系统、设备和存储介质
CN117152221B (zh) * 2023-10-26 2024-01-16 山东科技大学 一种图像非刚性配准方法、系统、设备和存储介质
CN117314900A (zh) * 2023-11-28 2023-12-29 诺比侃人工智能科技(成都)股份有限公司 一种基于半自监督特征匹配缺陷检测方法
CN117314900B (zh) * 2023-11-28 2024-03-01 诺比侃人工智能科技(成都)股份有限公司 一种基于半自监督特征匹配缺陷检测方法
CN117635645A (zh) * 2023-12-08 2024-03-01 兰州交通大学 一种复杂稠密网络下的并置多尺度融合边缘检测模型

Similar Documents

Publication Publication Date Title
CN108986136B (zh) 一种基于语义分割的双目场景流确定方法及系统
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN109754417B (zh) 从图像中无监督学习几何结构的系统与方法
Guo et al. Learning monocular depth by distilling cross-domain stereo networks
CN111311666B (zh) 一种融合边缘特征和深度学习的单目视觉里程计方法
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN110910437B (zh) 一种复杂室内场景的深度预测方法
CN110610486B (zh) 单目图像深度估计方法及装置
Zhang et al. Self-supervised monocular depth estimation with multiscale perception
Wang et al. Adversarial learning for joint optimization of depth and ego-motion
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
CN112288788A (zh) 单目图像深度估计方法
Ubina et al. Intelligent underwater stereo camera design for fish metric estimation using reliable object matching
CN112686952A (zh) 一种图像光流计算系统、方法及应用
Zhou et al. PADENet: An efficient and robust panoramic monocular depth estimation network for outdoor scenes
Zhuang et al. A dense stereo matching method based on optimized direction-information images for the real underwater measurement environment
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN117315169A (zh) 基于深度学习多视密集匹配的实景三维模型重建方法和系统
CN111696167A (zh) 自范例学习引导的单张影像超分辨率重构方法
CN115359508A (zh) 通过专家的神经元优化以提高的效率执行复杂优化任务
Yusiong et al. Unsupervised monocular depth estimation of driving scenes using siamese convolutional LSTM networks
CN111899284A (zh) 一种基于参数化esm网络的平面目标跟踪方法
Du et al. Dehazing Network: Asymmetric Unet Based on Physical Model
Xue et al. An end-to-end multi-resolution feature fusion defogging network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination