CN115439669A - 基于深度学习的特征点检测网络及跨分辨率图像匹配方法 - Google Patents

基于深度学习的特征点检测网络及跨分辨率图像匹配方法 Download PDF

Info

Publication number
CN115439669A
CN115439669A CN202210933090.4A CN202210933090A CN115439669A CN 115439669 A CN115439669 A CN 115439669A CN 202210933090 A CN202210933090 A CN 202210933090A CN 115439669 A CN115439669 A CN 115439669A
Authority
CN
China
Prior art keywords
image
feature point
convolution
network
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210933090.4A
Other languages
English (en)
Inventor
姚涛
张瑞星
贺文伟
闫连山
蒲桂东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Aidian Shandong Technology Co ltd
Original Assignee
Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Aidian Shandong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University, Aidian Shandong Technology Co ltd filed Critical Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Priority to CN202210933090.4A priority Critical patent/CN115439669A/zh
Publication of CN115439669A publication Critical patent/CN115439669A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明公开了一种基于深度学习的特征点检测网络及跨分辨率图像匹配方法,通过模型适应技术采用自监督的方式打破传统神经网络对人工标注的依赖,首先从无标注数据集中构建特征点伪标签,建立网络模型利用伪标签进行有监督的学习,再利用学习后的网络模型更新伪标签,通过网络模型训练和标签更新的多次迭代,自适应得到高质量的标签和高性能的特征点检测网络模型,然后利用训练好的网络模型检测到的特征点和描述符计算图像的焦距比例和位置对映关系,然后自适应缩放图像来实现跨尺度图像匹配,匹配方法具有更高的灵活性,可以解决不同分辨率图像的匹配问题,即使跨8倍焦距的图像也可以实现很好的图像匹配。

Description

基于深度学习的特征点检测网络及跨分辨率图像匹配方法
技术领域
本发明属于信息技术领域,具体涉及一种基于深度学习的特征点检测网络及跨分辨率图像匹配方法。
背景技术
图像匹配旨在将待匹配的两幅图像进行像素级别的识别与对齐。据美国自动成像协会统计,40%以上的视觉感知应用依赖于图像匹配的精度与效率,包括计算机视觉、图像合成、遥感、军事安防以及医疗诊断等各领域。目前的图像匹配方法是通过最小化图像灰度信息差来对图像进行像素上的对齐,对成像条件、图像形变(特别是要求图像对具有极高的重叠度)以及对噪声极其敏感,同时具有较高的计算复杂度,限制了其应用能力。同时,基于区域的匹配方法仅适用于相同尺度或相近尺度,无法解决跨尺度图像的匹配问题。
特征可以看作是整张图像的精简表达,图像匹配可以看作是图像特征的检测与匹配,利用特征进行图像匹配减少了无效的计算,同时能够减少噪声、畸变以及其他因素对匹配性能的影响。近年来,随着神经网络的发展,逐渐有些研究提出使用深度网络解决特征点检测的问题,神经网络技术的核心在于人工标注的大型实况数据集,但图像特征点的概念在语义上是不明确的。对于特征点检测和描述网络而言,特征点是一个个的像素点,很难使用人工来区分和标注真实图像中的所有潜在特征点。如何利用神经网络实现图像特征点检测和匹配是一个棘手的问题。
发明内容
针对现有技术中存在的问题,本发明提供了基于深度学习的特征点检测网络及跨分辨率图像匹配方法,根据网络模型检测到的特征点和描述符计算图像的焦距比例和位置对映关系,然后自适应缩放图像来实现跨尺度图像匹配,并通过自监督学习提升检测和描述的准确性。
为实现上述目的,本发明是通过以下技术方案实现的:
一种基于深度学习的特征点检测网络,其特点在于,通过模型适应技术采用自监督的方式打破传统神经网络对人工标注的依赖,首先从无标注数据集中构建特征点伪标签,建立网络模型利用伪标签进行有监督的学习,再利用学习后的网络模型更新伪标签,通过网络模型训练和标签更新的多次迭代,自适应得到高质量的标签和高性能的特征点检测网络模型。包括以下步骤:
步骤1,从无标注数据集中,对真实场景图像数据进行预处理,生成伪实况特征点;
步骤1.1,使用SuperPoint预训练模型结合单应性技术对真实场景图像数据集进行自动标注特征点标签,生成特征点标签集为label1;
步骤1.2,使用deepFEPE预训练模型结合单应性技术对真实场景图像数据集进行自动标注特征点标签,生成特征点标签集为label2;
步骤1.3,使用模型适应技术对特征点标签集label1和label2进行处理,生成特征点标签集label,并将其作为基准标签集;
Figure DEST_PATH_IMAGE001
其中ε取3,即将对应点坐标误差限制在3个像素范围,当SuperPoint模型检测的准标签点在deepFEPE模型检测的标签点内有在误差范围内的特征点时,将此点做为基准标签点。
步骤2,构建基于非对称卷积的特征点检测和描述网络ACPoint;
步骤2.1,使用一个共享的非对称卷积编码器、特征点解码器和描述符解码器组成ACPoint网络;
步骤2.2,非对称卷积编码器采用VGG风格的网络结构,具有8个大小为64-64-64-64-128-128-128-128的非对称卷积模块ACB(Asymmetric Convolution Block,ACB),分为四组,分别命名为ACB1、ACB2、ACB3、ACB4,非对称卷积模块采用3
Figure 275601DEST_PATH_IMAGE002
3、3
Figure 382621DEST_PATH_IMAGE002
1、1
Figure 162359DEST_PATH_IMAGE002
3三个并行卷积分支同时来学习特征信息,每个分支后都有BN层(Batch Normalization,BN)来进行批归一化,每间隔两层ACB模块采用并列的最大池化层和平均池化层来降低图像维度,池化层的窗口大小为2,步长为2;
步骤2.3,解码器重构来自潜在表征空间的输入,特征点解码器和描述符解码器头部都有一个 256 单元的ACB模块,然后是一个 1
Figure 557568DEST_PATH_IMAGE002
1 卷积层,其中特征点解码器部分的ACB模块命名为ACB5有 65 个单元,描述符解码器部分的ACB模块命名为ACB6具有256 个单元。
步骤3,利用步骤1中的基准标签集作为监督信息,对ACPoint网络进行自监督学习;
步骤3.1,训练过程中为提高网络对光照和视角变换的鲁棒性,使用随机高斯噪声、运动模糊、亮度调整等标准数据增强技术;
步骤3.2,所有训练均采用小批量为16,采用 Pytorch深度学习框架和默认参数为lr = 0.0001 和 β = (0.9, 0.999) 的 ADAMW 求解器完成。
步骤4,在训练阶段,对于每一个输入的特征图采用步骤2中的ACB模块(ACB1-6)来学得更多的特征信息;
步骤4.1,训练过程中为了使模型检测的特征点能够稀疏且均匀,采用非极大值抑制(Non-Maximum Suppression,NMS)来抑制局部范围内不是极大值的元素,取NMS值为4,保证每个特征点以自身为中心的9
Figure 309623DEST_PATH_IMAGE003
9像素范围内不会有别的特征点。
步骤5,在推理阶段,将步骤2中的ACB模块(ACB1-6)的三个卷积核进行融合,提升方形卷积对局部特征的表征能力;
步骤5.1,对于步骤2中的ACB模块(ACB1-6)的每个分支,首先将批量归一化层的参数等效地融合到卷积核和一个偏差项,然后将融合核和偏差项相加以获得单层;训练过程中,BN层学习一个批次输入特征中所有元素
Figure 132086DEST_PATH_IMAGE004
的均值
Figure 399119DEST_PATH_IMAGE005
和方差
Figure 598019DEST_PATH_IMAGE005
,然后对输入元素减去均值除以标准差,最后利用可学习参数
Figure 453849DEST_PATH_IMAGE006
Figure 447212DEST_PATH_IMAGE007
进行仿射变换来实现平移和缩放处理;训练结束后,卷积核的参数和BN层的参数固定下来,BN层是对输入特征图的每一个像素点归一化后的线性变换,并且变换的参数相同;BN层的参数由以下公式表示:
Figure 201542DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure 876237DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
将卷积层的公式
Figure 586573DEST_PATH_IMAGE012
带入BN层:
Figure DEST_PATH_IMAGE013
Figure 16417DEST_PATH_IMAGE014
则有
Figure DEST_PATH_IMAGE015
步骤5.2,随后根据1
Figure 195726DEST_PATH_IMAGE002
3和3
Figure 470849DEST_PATH_IMAGE002
1卷积映射到3
Figure 114320DEST_PATH_IMAGE002
3卷积的位置做相应的权重参数累加,全部卷积核融合完成后将原有的多余卷积核删掉;
Figure 636437DEST_PATH_IMAGE016
Figure 365359DEST_PATH_IMAGE017
Figure 444173DEST_PATH_IMAGE018
是均值,
Figure 879834DEST_PATH_IMAGE019
是方差,
Figure 651481DEST_PATH_IMAGE020
是学习得到的缩放因子,
Figure DEST_PATH_IMAGE021
是偏置项,
Figure 791999DEST_PATH_IMAGE022
是融合后的三维卷积核,
Figure DEST_PATH_IMAGE023
是偏置。对于ACB的三个卷积分支,首先等价的将BN的参数融合到卷积核与偏置项中,然后将融合后的三个卷积核相加。对于每个分支,卷积的同质性允许BN和线性缩放等价的融合到具有偏置的卷积层中,新的卷积核和偏置项可以产生与原始卷积相同的输出。
步骤6,使用经过步骤1-5训练好的ACPoint网络模型,再重新对真实场景图像数据集生成标签,并重复步骤1通过模型适应技术来迭代更新伪标签,不断提升标签的准确性,重复步骤3-5以更新后的标签重新进行训练;最后得到基于非对称卷积的特征点检测和描述网络ACPoint。
进一步的,上述ACPoint网络最终的损失包括两部分损失:特征点解码器损失
Figure 674505DEST_PATH_IMAGE024
,描述符解码器损失
Figure 964672DEST_PATH_IMAGE025
;训练过程中对于给定的一张输入图像,首先随机生成单应性实况
Figure 907220DEST_PATH_IMAGE026
,并使用
Figure 345155DEST_PATH_IMAGE026
生成对应的扭曲图像和扭曲图像的伪实况特征点标签;本发明使用成对的合成扭曲图像,来同时优化两部分损失,最终损失如下所示:
Figure 765772DEST_PATH_IMAGE027
Figure 425292DEST_PATH_IMAGE028
表示图像的像素点坐标集合,
Figure 538741DEST_PATH_IMAGE029
表示图像的真实特征点描述符坐标集合,
Figure 463972DEST_PATH_IMAGE030
表示图像的真实特征点标签集合,
Figure 625963DEST_PATH_IMAGE031
Figure 687460DEST_PATH_IMAGE032
Figure 971811DEST_PATH_IMAGE033
分别表示集合
Figure 571288DEST_PATH_IMAGE028
Figure 599287DEST_PATH_IMAGE029
Figure 780870DEST_PATH_IMAGE030
经过随机生成单应性矩阵
Figure 908226DEST_PATH_IMAGE034
变换后的集合,
Figure 808049DEST_PATH_IMAGE035
表示一对图像的整个对应集合。具体如下:
特征点解码器损失
Figure 374159DEST_PATH_IMAGE024
是单元
Figure 675828DEST_PATH_IMAGE036
上的全卷积交叉熵损失,将真实特征点标签
Figure 223353DEST_PATH_IMAGE037
和独立的矩阵元素叫做
Figure 610472DEST_PATH_IMAGE038
。特征点损失函数为:
Figure 980273DEST_PATH_IMAGE039
其中,
Figure 808552DEST_PATH_IMAGE040
描述符解码器损失
Figure 605606DEST_PATH_IMAGE041
应用于所有的描述符单元对,来自于输入图像的描述符单元
Figure 214442DEST_PATH_IMAGE042
,来自扭曲图像的
Figure 566096DEST_PATH_IMAGE043
,描述符单元
Figure 576778DEST_PATH_IMAGE044
Figure 544734DEST_PATH_IMAGE045
之间的诱导单应性对应关系写为:
Figure 578549DEST_PATH_IMAGE046
其中,
Figure 290153DEST_PATH_IMAGE047
代表中心像素在单元
Figure 155341DEST_PATH_IMAGE044
中的位置,
Figure 481149DEST_PATH_IMAGE048
代表单元位置
Figure 64577DEST_PATH_IMAGE047
乘以单应性
Figure 314292DEST_PATH_IMAGE026
并除以最后一个坐标,这通常用于从齐次坐标转换回欧几里得坐标,
Figure 237249DEST_PATH_IMAGE049
表示一对图像的整个对应集合;
使用具有正边距
Figure 547008DEST_PATH_IMAGE050
和负边距
Figure 617732DEST_PATH_IMAGE051
的铰链损失,并使用稀疏损失来降低训练过程的运算量,描述符损失定义为:
Figure 858089DEST_PATH_IMAGE052
其中,
Figure 697869DEST_PATH_IMAGE053
Figure 178529DEST_PATH_IMAGE050
=1,
Figure 408653DEST_PATH_IMAGE051
=0.2。
一种应用上述基于深度学习的特征点检测网络的跨分辨率图像匹配方法,其特殊之处在于,包括以下步骤:
步骤 1,利用预先训练好的ACPoint网络模型检测图像对的特征点和描述符;
步骤 2,通过匹配描述符获得匹配的特征点对;
步骤 3,根据特征点对计算图像对的单应性变换矩阵;
步骤 4,根据单应性矩阵对图像进行投影变换,并计算图像对的焦距比例;
步骤 5,按照步骤 4的焦距比例调整图像对的分辨率;
步骤 6,按照步骤 4的焦距比例关系,调整图像对的特征点集,根据调整后的特征点对重新计算新的单应性变换矩阵;
步骤 7,利用步骤6中新的单应性变换矩阵进行图像投影变换,并利用蒙板进行图像匹配。
本发明提出了一种自监督学习的模型适应技术,该模型适应技术根据标签本身的置信度和标签间的二维空间距离来对标签集进行标签筛选,置信度越高,空间距离越近,则标签为特征点的概率越高。通过对比迭代前后模型生成的标签,类似于自然语言处理领域模型自适应技术中对输出特征进行条件归一化,通过本模型适应技术对标签集进行筛选,让筛选后的标签更加适应目标任务,以此来达到模型适应的目的。本模型适应技术用于基准标签的创建和标签的迭代更新,通过不断迭代来提高标签的准确性,在没有标注数据的情况下,也可以高效地训练网络。
本发明与现有技术相比,其有益之处在于:
1、使用自监督的模型适应技术在没有标注数据集的情况下,高效地训练网络模型:
自监督学习是首先从无标签数据中训练网络,构造监督信息,再利用监督信息进行有监督的学习。本发明采用模型适应技术,通过标签数据的分布重叠程度,利用二维距离和置信度实现特征点与非特征点的低密度分离,生成的伪实况数据集的特征点标签具有更高的可重复性和准确率,提升网络模型的拟合能力。
2、使用非对称卷积网络模块提取图像的局部特征能获得更丰富的深度特征:
本发明提出的基于非对称卷积的特征点检测和描述网络ACPoint,在训练阶段使用ACB模块来强化网络的特征检测能力,通过同时训练三个并行的分支来学习更多的特征信息,在推理阶段将ACB模块学到的权重重参数化为3
Figure 265751DEST_PATH_IMAGE002
3卷积的权重,并将批归一化层BN层和卷积层的参数进行重参数化,在不增加计算量的前提下提升网络模型的推理精度。
3、使用训练好的特征点检测网络模型,实现跨分辨率图像匹配:
本发明提出了一种新的跨分辨率图像匹配方法。根据本发明提供的ACPoint网络模型检测到的特征点和描述符计算图像的焦距比例和位置对映关系,然后自适应缩放图像来实现跨尺度图像匹配。匹配方法具有更高的灵活性,可以解决不同分辨率图像的匹配问题,即使跨8倍焦距的图像也可以实现很好的图像匹配。
附图说明
图1为本发明的自监督学习过程。
图2为本发明的特征点检测网络的结构图。
图3为ACB模块的结构图。
图4为本发明的一种跨分辨率图像匹配方法原理示意图。
图5为本发明应用实例中,利用特征点检测网络在图像上提取的特征点。
图6为本发明应用实例中,利用特征点检测网络在图像对上匹配的特征对应。
图7为本发明应用实例中,跨8倍分辨率图像匹配的结果图。
图8为本发明的特征点检测网络在HPatches数据集上的性能指标。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
首先,构建一种基于深度学习的特征点检测网络:
步骤1,在没有标注数据集的情况下,使用MS COCO 2017数据集作为真实场景图像数据集,如图1所示对真实场景图像数据集进行预处理,生成伪实况特征点;
使用SuperPoint预训练模型结合单应性技术对真实场景图像数据集进行自动标注特征点标签,生成特征点标签集为label1;
使用deepFEPE预训练模型结合单应性技术对真实场景图像数据集进行自动标注特征点标签,生成特征点标签集为label2;
使用模型适应技术对特征点标签集label1和label2处理,生成特征点标签集label,并将其作为基准标签集;
Figure 960037DEST_PATH_IMAGE055
其中ε取3,即将对应点坐标误差限制在3个像素范围,当SuperPoint模型检测的准标签点在deepFEPE模型检测的标签点内有在误差范围内的特征点时,将此点做为基准标签点。
步骤2,如图2、图3所示,构建基于非对称卷积的特征点检测和描述网络ACPoint;
使用一个共享的非对称卷积编码器、特征点解码器和描述符解码器组成ACPoint网络;
非对称卷积编码器采用VGG风格的网络结构,具有8个大小为64-64-64-64-128-128-128-128的非对称卷积模块ACB,分为四组,分别命名为ACB1、ACB2、ACB3、ACB4,非对称卷积模块采用3
Figure 798549DEST_PATH_IMAGE002
3,3
Figure 843866DEST_PATH_IMAGE002
1,1
Figure 239075DEST_PATH_IMAGE002
3三个分支同时来学习特征信息,每个分支后都有BN层来进行批归一化。每间隔两层ACB模块采用并列的最大池化层和平均池化层来降低图像维度,池化层的窗口大小为2,步长为2;
解码器重构来自潜在表征空间的输入,特征点解码器和描述符解码器头部都有一个 256 单元的ACB模块,然后是一个 1
Figure 787868DEST_PATH_IMAGE002
1 卷积层,其中特征点解码器部分的ACB模块有 65个单元,命名为ACB5,描述符解码器部分的ACB模块具有256 个单元,命名为ACB6。
步骤3,使用步骤1中的基准标签集作为监督信息,对ACPoint网络进行自监督学习;
训练过程中为提高网络对光照和视角变换的鲁棒性,还使用了随机高斯噪声、运动模糊、亮度调整等标准数据增强技术;
所有训练均采用小批量为16的Pytorch深度学习框架和默认参数为lr = 0.0001和 β = (0.9, 0.999) 的ADAMW求解器完成。
步骤4,在训练阶段,对于每一个输入的特征图采用步骤2中的ACB模块(ACB1-6)来学得更多的特征信息;训练过程中为了使模型检测的特征点能够稀疏且均匀,采用非极大值抑制(Non-Maximum Suppression,NMS)来抑制局部范围内不是极大值的元素。取NMS值为4,保证每个特征点以自身为中心的9
Figure 813593DEST_PATH_IMAGE003
9像素范围内不会有别的特征点。
步骤5,为了提高模型的检测精度和减少模型参数,本发明在推理阶段,将步骤2中的每个ACB模块(ACB1-6)的三个卷积核进行融合,提升方形卷积对局部特征的表征能力;对于ACB模块(ACB1-6)的每个分支,首先将批量归一化层的参数等效地融合到卷积核和一个偏差项,然后将融合核和偏差项相加以获得单层;随后根据1
Figure 80626DEST_PATH_IMAGE002
3和3
Figure 279526DEST_PATH_IMAGE002
1卷积映射到3
Figure 872706DEST_PATH_IMAGE002
3卷积的位置做相应的权重参数累加,全部卷积核融合完成后将原有的多余卷积核删掉。
步骤6,使用经过步骤1-5训练好的ACPoint网络模型再重新对MS COCO 2017数据集生成标签,并重复步骤1通过模型适应技术来迭代更新伪标签,不断提升标签的准确性,重复步骤3-5以更新后的标签重新进行训练;最后得到基于非对称卷积的特征点检测和描述网络ACPoint。
一种应用上述基于深度学习的特征点检测网络的跨分辨率图像匹配方法,参见图4所示实例的原理图:
本发明使用可变焦相机来拍摄相同场景下不同视角的图像,图像分辨率均为4936
Figure 131649DEST_PATH_IMAGE002
3266。为验证跨焦距图像匹配的效果,将一张图像调整分辨率为600
Figure 885979DEST_PATH_IMAGE002
397作为图像
Figure 560673DEST_PATH_IMAGE056
,另取一张图像(仍保持分辨率为4936
Figure 84059DEST_PATH_IMAGE002
3266)的部分图像块作为图像
Figure 513903DEST_PATH_IMAGE057
,将输入图像
Figure 676900DEST_PATH_IMAGE056
Figure 217603DEST_PATH_IMAGE057
转为灰度图像,然后将灰度图像归一化;
步骤1,将上述灰度图像
Figure 861074DEST_PATH_IMAGE056
Figure 133923DEST_PATH_IMAGE057
送入训练好的ACPoint网络模型,分别得到两幅图像的特征点和描述符;使用BFMatch暴力方法找到图像
Figure 862845DEST_PATH_IMAGE056
的点集1中每个描述符在图像
Figure 941659DEST_PATH_IMAGE057
的点集2中距离最近的描述符;找寻到的距离最小就认为越匹配;
步骤2,根据匹配好的描述符,使用基于 FLANN 的匹配器匹配描述符向量,定位到匹配好的特征点;
步骤3,使用RANSAC算法以迭代的方式来过滤匹配;从过滤完的匹配对中使用cv2.findHomography 方法,获得单应性变换矩阵;
步骤4,根据单应性矩阵将图像
Figure 626587DEST_PATH_IMAGE057
映射为图像
Figure 132655DEST_PATH_IMAGE058
Figure 348873DEST_PATH_IMAGE058
的图像区域可以近似看成凸四边形,根据
Figure 231378DEST_PATH_IMAGE058
的四个图像顶点计算凸四边形的面积与图像
Figure 521545DEST_PATH_IMAGE057
之间面积的比值,计算焦距比例:
Figure 464093DEST_PATH_IMAGE060
Figure 902028DEST_PATH_IMAGE061
代表图像
Figure 509596DEST_PATH_IMAGE057
投影变换到图像
Figure 982165DEST_PATH_IMAGE056
中对应位置后的面积大小,
Figure 830036DEST_PATH_IMAGE062
代表图像
Figure 692949DEST_PATH_IMAGE057
实际的面积,
Figure 100002_DEST_PATH_IMAGE063
是按照顺时针顺序存储的多边形顶点矩阵,
Figure 917257DEST_PATH_IMAGE064
Figure 434214DEST_PATH_IMAGE065
分别是第
Figure 718565DEST_PATH_IMAGE066
个顶点的纵坐标和横坐标,
Figure 131091DEST_PATH_IMAGE067
为顶点数量4,计算公式:
Figure 831194DEST_PATH_IMAGE069
最终可以得到图像对
Figure 12777DEST_PATH_IMAGE056
Figure 468029DEST_PATH_IMAGE057
的焦距比例为8.22;
步骤5,如图4所示,按照步骤4得到的焦距比例关系,对图像
Figure 367852DEST_PATH_IMAGE056
调整尺寸为图像
Figure 120913DEST_PATH_IMAGE070
,分辨率尺寸恢复为4936
Figure 157002DEST_PATH_IMAGE002
3266;
步骤6,按照步骤4得到的焦距比例关系,调整图像
Figure 720839DEST_PATH_IMAGE056
的特征点集,重新进行匹配,获得新的单应性变换矩阵;
步骤7,利用步骤6中新的单应性变换矩阵将图像
Figure 107958DEST_PATH_IMAGE058
映射为图像
Figure 212180DEST_PATH_IMAGE071
;利用二值化函数对灰度图像处理,采用自适应阈值处理,使用高斯窗口大小作为权重,阈值为邻域值的加权和,在图像的不同区域获得不同的阈值,低于阈值为0,高于阈值为1,则获得图像
Figure 368355DEST_PATH_IMAGE071
的蒙版;对图像
Figure 352360DEST_PATH_IMAGE071
的蒙版做取反操作,获得图像
Figure 961196DEST_PATH_IMAGE070
的蒙版;
步骤8,用两张图像的蒙版取得图像的对应区域,再进行相加,便可获得匹配后的图像
Figure 134688DEST_PATH_IMAGE072
图5至图7展示了应用实例的图像匹配效果,图5展示了特征点检测网络对图像特征的检测效果,图6展示了在不同时期拍摄的遥感图像上的特征对应效果,图7展示了利用本发明图像匹配方法实现了跨8倍分辨率差异的图像匹配效果。
图8展示了本发明的特征点检测网络在HPatches数据集进行单应性估计的评价指标,本发明除M.Score的表现略低于SuperPoint,其他指标均为最优,在单应性估计,最近邻平均精度和匹配定位误差上的表现超过其他方法。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (3)

1.一种基于深度学习的特征点检测网络,其特征在于,包括以下步骤:
步骤1,从无标注数据集中,对真实场景图像数据进行预处理,生成伪实况特征点;
步骤1.1,使用SuperPoint预训练模型结合单应性技术对真实场景图像数据集进行自动标注特征点标签,生成特征点标签集为label1;
步骤1.2,使用deepFEPE预训练模型结合单应性技术对真实场景图像数据集进行自动标注特征点标签,生成特征点标签集为label2;
步骤1.3,使用模型适应技术对特征点标签集label1和label2进行处理,生成特征点标签集label,并将其作为基准标签集;
Figure 12557DEST_PATH_IMAGE002
其中ε取3,即将对应点坐标误差限制在3个像素范围,当SuperPoint模型检测的准标签点在deepFEPE模型检测的标签点内有在误差范围内的特征点时,将此点做为基准标签点;
步骤2,构建基于非对称卷积的特征点检测和描述网络ACPoint;
步骤2.1,使用一个共享的非对称卷积编码器、特征点解码器和描述符解码器组成ACPoint网络;
步骤2.2,非对称卷积编码器采用VGG风格的网络结构,具有8个大小为64-64-64-64-128-128-128-128的非对称卷积模块ACB,分为四组,分别命名为ACB1、ACB2、ACB3、ACB4,非对称卷积模块采用3
Figure DEST_PATH_IMAGE003
3、3
Figure 918196DEST_PATH_IMAGE003
1、1
Figure 14328DEST_PATH_IMAGE003
3三个并行卷积分支同时来学习特征信息,每个分支后都有BN层来进行批归一化,每间隔两层ACB模块采用并列的最大池化层和平均池化层来降低图像维度,池化层的窗口大小为2,步长为2;
步骤2.3,解码器重构来自潜在表征空间的输入,特征点解码器和描述符解码器头部都有一个 256 单元的ACB模块,然后是一个 1
Figure 647304DEST_PATH_IMAGE003
1 卷积层,其中特征点解码器部分的ACB模块有 65 个单元,命名为ACB5,描述符解码器部分的ACB模块具有256 个单元,命名为ACB6;
步骤3,利用步骤1中的基准标签集作为监督信息,对ACPoint网络进行自监督学习;
步骤3.1,训练过程中为提高网络对光照和视角变换的鲁棒性,使用随机高斯噪声、运动模糊、亮度调整等标准数据增强技术;
步骤3.2,所有训练均采用小批量为16,采用 Pytorch深度学习框架和默认参数为lr =0.0001 和 β = (0.9, 0.999) 的 ADAMW 求解器完成;
步骤4,在训练阶段,对于每一个输入的特征图采用步骤2中的ACB模块(ACB1-6)来学得更多的特征信息;
步骤4.1,训练过程中为了使模型检测的特征点能够稀疏且均匀,采用非极大值抑制NMS来抑制局部范围内不是极大值的元素,取NMS值为4,保证每个特征点以自身为中心的9
Figure 778071DEST_PATH_IMAGE004
9像素范围内不会有别的特征点;
步骤5,在推理阶段,将步骤2中的ACB模块(ACB1-6)的三个卷积核进行融合,提升方形卷积对局部特征的表征能力;
步骤5.1,对于步骤2中的ACB模块(ACB1-6)的每个分支,首先将批量归一化层的参数等效地融合到卷积核和一个偏差项,然后将融合核和偏差项相加以获得单层;训练过程中,BN层学习一个批次输入特征中所有元素
Figure DEST_PATH_IMAGE005
的均值
Figure 854611DEST_PATH_IMAGE006
和方差
Figure 438039DEST_PATH_IMAGE006
,然后对输入元素减去均值除以标准差,最后利用可学习参数
Figure DEST_PATH_IMAGE007
Figure 877635DEST_PATH_IMAGE008
进行仿射变换来实现平移和缩放处理;训练结束后,卷积核的参数和BN层的参数固定下来,BN层是对输入特征图的每一个像素点归一化后的线性变换,并且变换的参数相同;BN层的参数由以下公式表示:
Figure 862909DEST_PATH_IMAGE010
Figure 172668DEST_PATH_IMAGE012
Figure 181075DEST_PATH_IMAGE014
Figure 234482DEST_PATH_IMAGE016
将卷积层的公式
Figure DEST_PATH_IMAGE017
带入BN层:
Figure 261212DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
则有
Figure 741872DEST_PATH_IMAGE020
步骤5.2,随后根据1
Figure 34313DEST_PATH_IMAGE003
3和3
Figure 829094DEST_PATH_IMAGE003
1卷积映射到3
Figure 523380DEST_PATH_IMAGE003
3卷积的位置做相应的权重参数累加,全部卷积核融合完成后将原有的多余卷积核删掉;
Figure 174942DEST_PATH_IMAGE022
Figure 407209DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
是均值,
Figure 802418DEST_PATH_IMAGE026
是方差,
Figure DEST_PATH_IMAGE027
是学习得到的缩放因子,
Figure 288894DEST_PATH_IMAGE028
是偏置项,
Figure DEST_PATH_IMAGE029
是融合后的三维卷积核,
Figure 563887DEST_PATH_IMAGE030
是偏置;
步骤6,使用经过步骤1-5训练好的ACPoint网络模型,再重新对真实场景图像数据集生成标签,并重复步骤1通过模型适应技术来迭代更新伪标签,不断提升标签的准确性,重复步骤3-5以更新后的标签重新进行训练;最后得到基于非对称卷积的特征点检测和描述网络ACPoint。
2.根据权利要求1所述的一种基于深度学习的特征点检测网络,其特征在于,ACPoint网络最终的损失包括两部分损失:特征点解码器损失
Figure DEST_PATH_IMAGE031
,描述符解码器损失
Figure 830920DEST_PATH_IMAGE032
;训练过程中对于给定的一张输入图像,首先随机生成单应性实况
Figure DEST_PATH_IMAGE033
,并使用
Figure 701924DEST_PATH_IMAGE033
生成对应的扭曲图像和扭曲图像的伪实况特征点标签;使用成对的合成扭曲图像,来同时优化两部分损失,最终损失如下所示:
Figure 370803DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
表示图像的像素点坐标集合,
Figure 831345DEST_PATH_IMAGE036
表示图像的真实特征点描述符坐标集合,
Figure DEST_PATH_IMAGE037
表示图像的真实特征点标签集合,
Figure 257778DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
Figure 260369DEST_PATH_IMAGE040
分别表示集合
Figure 783754DEST_PATH_IMAGE035
Figure 134970DEST_PATH_IMAGE036
Figure 376596DEST_PATH_IMAGE037
经过随机单应性矩阵
Figure 917298DEST_PATH_IMAGE033
变换后的集合,
Figure DEST_PATH_IMAGE041
表示一对图像的整个对应集合;
特征点解码器损失
Figure 232873DEST_PATH_IMAGE031
是坐标单元
Figure 833619DEST_PATH_IMAGE042
上的全卷积交叉熵损失,将真实特征点标签
Figure DEST_PATH_IMAGE043
和独立的矩阵元素叫做
Figure 483912DEST_PATH_IMAGE044
,特征点损失函数为:
Figure 828305DEST_PATH_IMAGE046
其中,
Figure 326283DEST_PATH_IMAGE048
描述符解码器损失
Figure 770034DEST_PATH_IMAGE050
应用于所有的描述符单元对,来自于输入图像的描述符单元
Figure DEST_PATH_IMAGE051
,来自扭曲图像的
Figure 986251DEST_PATH_IMAGE052
,描述符单元
Figure DEST_PATH_IMAGE053
Figure 55707DEST_PATH_IMAGE054
之间的诱导单应性对应关系写为:
Figure 408191DEST_PATH_IMAGE056
其中,
Figure DEST_PATH_IMAGE057
代表中心像素在单元
Figure 22843DEST_PATH_IMAGE053
中的位置,
Figure 460778DEST_PATH_IMAGE058
代表单元位置
Figure 146974DEST_PATH_IMAGE057
乘以单应性
Figure 543845DEST_PATH_IMAGE033
并除以最后一个坐标,
Figure 657295DEST_PATH_IMAGE041
表示一对图像的整个对应集合;
使用具有正边距
Figure DEST_PATH_IMAGE059
和负边距
Figure 520208DEST_PATH_IMAGE060
的铰链损失,并使用稀疏损失来降低训练过程的运算量,描述符损失定义为:
Figure 744516DEST_PATH_IMAGE062
其中,
Figure DEST_PATH_IMAGE063
Figure 258543DEST_PATH_IMAGE059
=1,
Figure 542894DEST_PATH_IMAGE060
=0.2。
3.一种应用权利要求1所述基于深度学习的特征点检测网络的跨分辨率图像匹配方法,其特征在于,包括以下步骤:
步骤 1,利用预先训练好的ACPoint网络模型检测图像对的特征点和描述符;
步骤 2,通过匹配描述符获得匹配的特征点对;
步骤 3,根据特征点对计算图像对的单应性变换矩阵;
步骤 4,根据单应性矩阵对图像进行投影变换,并计算图像对的焦距比例;
步骤 5,按照步骤 4的焦距比例调整图像对的分辨率;
步骤 6,按照步骤 4的焦距比例关系,调整图像对的特征点集,根据调整后的特征点对重新计算新的单应性变换矩阵;
步骤 7,利用步骤6中新的单应性变换矩阵进行图像投影变换,并利用蒙板进行图像匹配。
CN202210933090.4A 2022-08-04 2022-08-04 基于深度学习的特征点检测网络及跨分辨率图像匹配方法 Withdrawn CN115439669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210933090.4A CN115439669A (zh) 2022-08-04 2022-08-04 基于深度学习的特征点检测网络及跨分辨率图像匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210933090.4A CN115439669A (zh) 2022-08-04 2022-08-04 基于深度学习的特征点检测网络及跨分辨率图像匹配方法

Publications (1)

Publication Number Publication Date
CN115439669A true CN115439669A (zh) 2022-12-06

Family

ID=84242857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210933090.4A Withdrawn CN115439669A (zh) 2022-08-04 2022-08-04 基于深度学习的特征点检测网络及跨分辨率图像匹配方法

Country Status (1)

Country Link
CN (1) CN115439669A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860091A (zh) * 2023-02-15 2023-03-28 武汉图科智能科技有限公司 一种基于正交约束的深度特征描述符学习方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860091A (zh) * 2023-02-15 2023-03-28 武汉图科智能科技有限公司 一种基于正交约束的深度特征描述符学习方法

Similar Documents

Publication Publication Date Title
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN110288555B (zh) 一种基于改进的胶囊网络的低照度增强方法
CN108764250B (zh) 一种运用卷积神经网络提取本质图像的方法
CN113450396B (zh) 基于骨骼特征的三维/二维图像配准方法及装置
CN110363068B (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
Jaus et al. Panoramic panoptic segmentation: Towards complete surrounding understanding via unsupervised contrastive learning
Yin et al. Sparse representation over discriminative dictionary for stereo matching
CN112183501A (zh) 深度伪造图像检测方法及装置
CN114255197B (zh) 一种红外与可见光图像自适应融合对齐方法及系统
Zhang et al. 3d adversarial attacks beyond point cloud
Zhang et al. AIDEDNet: Anti-interference and detail enhancement dehazing network for real-world scenes
CN110969089A (zh) 噪声环境下的轻量级人脸识别系统及识别方法
Liu et al. Content-aware unsupervised deep homography estimation and its extensions
CN110097499B (zh) 基于谱混合核高斯过程回归的单帧图像超分辨率重建方法
Zhou et al. Multi-view image denoising using convolutional neural network
CN115439669A (zh) 基于深度学习的特征点检测网络及跨分辨率图像匹配方法
Xu et al. Domainfeat: Learning local features with domain adaptation
Zhang et al. Mffe: Multi-scale feature fusion enhanced net for image dehazing
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
Zhao et al. Single image super-resolution via blind blurring estimation and anchored space mapping
CN113705731A (zh) 一种基于孪生网络的端到端图像模板匹配方法
CN113962846A (zh) 图像对齐方法及装置、计算机可读存储介质及电子设备
CN113159158A (zh) 一种基于生成对抗网络的车牌矫正与重构方法及系统
Yao et al. Matching wide-baseline stereo images with weak texture using the perspective invariant local feature transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20221206