CN116129228B - 图像匹配模型的训练方法、图像匹配方法及其装置 - Google Patents
图像匹配模型的训练方法、图像匹配方法及其装置 Download PDFInfo
- Publication number
- CN116129228B CN116129228B CN202310417575.2A CN202310417575A CN116129228B CN 116129228 B CN116129228 B CN 116129228B CN 202310417575 A CN202310417575 A CN 202310417575A CN 116129228 B CN116129228 B CN 116129228B
- Authority
- CN
- China
- Prior art keywords
- image
- detection
- key point
- ith
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000001514 detection method Methods 0.000 claims abstract description 168
- 238000012545 processing Methods 0.000 claims abstract description 144
- 239000013598 vector Substances 0.000 claims abstract description 111
- 230000006870 function Effects 0.000 claims abstract description 44
- 239000003795 chemical substances by application Substances 0.000 claims description 58
- 230000007704 transition Effects 0.000 claims description 41
- 238000010586 diagram Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 239000003086 colorant Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 23
- 230000015654 memory Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 5
- 108010001267 Protein Subunits Proteins 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种图像匹配模型的训练方法、图像匹配方法及其装置。该训练方法包括获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量;利用描述符学习模型的多头注意力层根据键向量、值向量和查询向量,生成新的图像处理参数;针对每个训练图像,根据新的图像处理参数和图像特征,生成上下文特征图;将多个上下文特征图输入至关键点检测模型,输出与每个上下文特征图对应的检测评分图和关键点检测器;将与每个训练数据集对应的多个检测评分图和多个关键点检测器输入损失函数,输出损失结果;根据损失结果迭代地调整初始匹配模型的网络参数,生成经训练的图像匹配模型。
Description
技术领域
本发明涉及无线感知技术领域,更具体地,涉及一种图像匹配模型的训练方法、图像匹配方法、图像匹配模型的训练装置、图像匹配装置、电子设备、计算机可读存储介质以及计算机程序产品。
背景技术
在描绘同一场景的图像之间精确地找到像素级匹配是一项基本任务,具有广泛的3D视觉应用,如3D重建、同步定位与建图(SLAM)、姿态估计和视觉定位。由于其广泛的现实应用,图像匹配任务在过去的几十年里受到了越来越多的关注。然而,由于光照变化、视点转换、糟糕的纹理和尺度变化等各种挑战,实现鲁棒性较高的图像匹配仍然很困难。
发明内容
有鉴于此,本发明实施例提供了一种图像匹配模型的训练方法、图像匹配方法、图像匹配模型的训练装置、图像匹配装置、电子设备、计算机可读存储介质以及计算机程序产品。
本发明实施例的一个方面提供了一种图像匹配模型的训练方法,包括:
获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,其中,不同上述图像特征对应于一个训练数据集的不同训练图像,上述图像处理参数表征图像色彩的数值值域;
利用上述描述符学习模型的多头注意力层根据上述键向量、上述值向量和上述查询向量,生成新的图像处理参数;
针对每个上述训练图像,根据上述新的图像处理参数和上述图像特征,生成上下文特征图;
将多个上述上下文特征图输入至关键点检测模型,输出与每个上述上下文特征图对应的检测评分图和关键点检测器,其中,初始匹配模型包括上述描述符学习模型和上述关键点检测模型;
将与每个上述训练数据集对应的多个检测评分图和多个上述关键点检测器输入损失函数,输出损失结果;
根据上述损失结果迭代地调整上述初始匹配模型的网络参数,生成经训练的上述图像匹配模型。
根据本发明的实施例,根据上述新的图像处理参数和上述图像特征,生成上下文特征图,包括:
根据上述新的图像处理参数和上述图像特征,计算特征相似度;
根据上述特征相似度、上述新的图像处理参数和上述图像特征,得到新的图像特征;
对上述新的图像特征进行重塑处理,得到上述上下文特征图。
根据本发明的实施例,上述关键点检测模型包括i个检测代理参数,i大于等于2;
将多个上述上下文特征图输入至关键点检测模型,输出与每个上述上下文特征图对应的检测评分图和关键点检测器,包括:
在i=1的情况下,利用第i检测解码器处理第i检测代理参数和上述上下文特征图,生成第i目标检测代理参数;
对上述上下文特征图进行卷积采样处理,得到第i输出特征图;
在i>1的情况下,根据第i-1输出特征图和第i检测代理参数,生成第i过渡特征图,并对上述第i-1输出特征图进行卷积采样处理,得到第i输出特征图;
利用第i检测解码器处理第i-1目标检测代理参数和上述第i过渡特征图,生成第i目标检测代理参数;
根据上述上下文特征图和多个上述目标检测代理参数,生成上述检测评分图和上述关键点检测器。
根据本发明的实施例,根据上述上下文特征图和多个上述目标检测代理参数,生成上述检测评分图和上述关键点检测器,包括:
对多个上述目标检测代理参数进行聚合处理,得到上述关键点检测器;
对上述关键点检测器和上述上下文特征图进行点积运算,得到上述检测评分图。
根据本发明的实施例,对多个上述目标检测代理参数进行聚合处理,得到上述关键点检测器,包括:
根据多个上述目标检测代理参数、上述键向量、上述值向量和上述查询向量,生成关键点检测函数;
对上述关键点检测函数进行归一化处理,得到第一过渡检测器;
利用多层感知机处理上述第一过渡检测器,生成第二过渡检测器;
对上述第一过渡检测器和上述第二过渡检测器进行归一化处理,得到上述关键点检测器。
根据本发明的实施例,将与每个上述训练数据集对应的多个检测评分图和多个上述关键点检测器输入损失函数,输出损失结果,包括:
利用余弦相似度损失函数处理多个上述检测评分图,得到第一损失结果;
针对每个上述训练图像,利用峰值损失函数处理上述检测评分图,得到第二损失结果;
针对每个上述训练图像,利用多样性损失函数处理与上述训练图像对应的上述图像处理参数,生成第三损失结果;
根据上述第一损失结果、多个上述第二损失结果和多个上述第三损失结果,生成上述损失结果。
根据本发明的实施例,上述初始匹配模型还包括特征提取层;
其中,上述获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,包括:
获取多个上述训练图像;
针对每个上述训练图像,利用上述特征提取层对上述训练图像进行特征提取处理,得到上述图像特征;
分别对上述图像特征和上述图像处理参数进行编码处理,得到上述键向量、上述值向量和上述查询向量。
本发明实施例的另一个方面提供了一种图像匹配方法,包括:
获取多个待检测图像的待检测图像特征;
将多个上述待检测图像特征输入图像匹配模型,输出目标评分图和与每个上述待检测图像对应的目标关键点检测器,其中,上述目标评分图中的每个局部区域评分表征多个上述待检测图像在上述局部区域的匹配程度;
其中,上述图像匹配模型是利用如上所述的方法训练得到的。
本发明实施例的另一个方面提供了一种图像匹配模型的训练装置,其特征在于,包括:
第一获取模块,用于获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,其中,不同上述图像特征对应于一个训练数据集的不同训练图像,上述图像处理参数表征图像色彩的数值值域;
第一生成模块,用于利用上述描述符学习模型的多头注意力层根据上述键向量、上述值向量和上述查询向量,生成新的图像处理参数;
第二生成模块,用于针对每个上述训练图像,根据上述新的图像处理参数和上述图像特征,生成上下文特征图;
输出模块,用于将多个上述上下文特征图输入至关键点检测模型,输出与每个上述上下文特征图对应的检测评分图和关键点检测器,其中,初始匹配模型包括上述描述符学习模型和上述关键点检测模型;
损失计算模块,用于将与每个上述训练数据集对应的多个检测评分图和多个上述关键点检测器输入损失函数,输出损失结果;
迭代调整模块,用于根据上述损失结果迭代地调整上述初始匹配模型的网络参数,生成经训练的上述图像匹配模型。
本发明实施例的另一个方面提供了一种图像匹配装置,包括:
第二获取模块,用于获取多个待检测图像的待检测图像特征;
匹配模块,用于将多个上述待检测图像特征输入图像匹配模型,输出目标评分图和与每个上述待检测图像对应的目标关键点检测器,其中,上述目标评分图中的每个局部区域评分表征多个上述待检测图像在上述局部区域的匹配程度;
其中,上述图像匹配模型是利用如上所述的方法训练得到的。
本发明实施例的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
本发明实施例的另一个方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本发明实施例的另一个方面提供了一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本发明的实施例,通过描述符学习模型的图像处理参数生成查询向量,该查询向量在多头注意力层中结合从图像特征提取的键向量和值向量生成描述符学习模型的新的图像处理参数,并基于新的图像处理参数和图像特征生成上下文特征图,根据上下文特征图生成检测评分图和关键点检测器,最终生成图像匹配模型,该模型能够在较为恶劣的环境因素下得到鲁棒性较好的图像匹配结果,同时能够降低图像匹配的成本以及内存的消耗。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示出了根据本发明实施例的可以应用图像匹配模型的训练方法或图像匹配方法的示例性系统架构图;
图2示出了根据本发明实施例的图像匹配模型的训练方法的流程图;
图3示出了根据本发明另一实施例的图像匹配模型的训练方法的流程图;
图4示出了根据本发明实施例的图像匹配方法的流程图;
图5示出了根据本发明实施例的图像匹配模型的训练装置的框图;
图6示出了根据本发明实施例的图像匹配装置的框图;
图7示出了根据本发明实施例的适于实现上文描述的方法的电子设备的框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在描绘同一场景的图像之间精确地找到像素级匹配时,由于光照变化、视点转换、糟糕的纹理和尺度变化等各种挑战,实现鲁棒图像匹配仍然很困难。
为了克服上述挑战,大量的图像匹配方法被提出,其中提出了一些密集匹配方法,充分考虑所有可能的匹配,并取得了很大的成功。然而,由于匹配空间大,这些密集匹配方法在计算成本和内存消耗方面都很昂贵。为了达到高效率,基于检测器的匹配方法可以通过设计关键点检测器来提取相对较小的关键点集进行匹配,从而有效地减小匹配空间,具有很高的研究价值。通常,现有的基于检测器的匹配方法可以分为两大类,即detect-then-describe方法和detect-and-describe方法。detect-then-describe方法是指先检测可重复的关键点,然后通过描述关键点周围提取的图像补丁来表示关键点特征。这样就可以根据关键点特征之间的欧氏距离进行最近邻搜索来建立匹配。然而,由于在先检测后描述的方法中,关键点检测器和描述器通常是分开设计的,因此在极端的外观变化下关键点特征可能不适合被检测的关键点,从而导致性能较差。不同的是,detect-and-describe方法提出了将关键点检测器学习与描述符学习紧密耦合的方法。例如,D2-Net和R2D2都使用单个卷积神经网络(CNN)进行联合检测和描述。这些方法取得了良好的性能,主要得益于联合学习的优势。然而,CNN提取的特征的接受域是有限的,关键点检测器通常是在单个特征尺度上学习的,这限制了进一步的进展。
有鉴于此,本发明的实施例提供了图像匹配模型的训练方法、图像匹配方法及其装置。该训练方法包括获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,其中,不同图像特征对应于一个训练数据集的不同训练图像,图像处理参数表征图像色彩的数值值域;利用描述符学习模型的多头注意力层根据键向量、值向量和查询向量,生成新的图像处理参数;针对每个训练图像,根据新的图像处理参数和图像特征,生成上下文特征图;将多个上下文特征图输入至关键点检测模型,输出与每个上下文特征图对应的检测评分图和关键点检测器,其中,初始匹配模型包括描述符学习模型和关键点检测模型;将与每个训练数据集对应的多个检测评分图和多个关键点检测器输入损失函数,输出损失结果;根据损失结果迭代地调整初始匹配模型的网络参数,生成经训练的图像匹配模型。
图1所示仅为可以应用本发明实施例的系统架构的示例,以帮助本领域技术人员理解本发明的技术内容,但并不意味着本发明实施例不可以用于其他设备、系统、环境或场景。
如图1所示,该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103,网络104、服务器105和图像采集设备106。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103、服务器105和图像采集设备106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
图像采集设备106可以是相机、摄像机等可以采集目标区域图像的设备,不同的图像可以用于图像匹配模型的训练或图像之间匹配程度的确定。
需要说明的是,本发明实施例所提供的图像匹配模型的训练方法或图像匹配方法可以由服务器105、第一终端设备101、第二终端设备102、第三终端设备103、能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的其他服务器或服务器集群中的一种执行。相应地,本发明实施例所提供的图像匹配模型的训练方法或图像匹配方法一般可以设置于服务器105、第一终端设备101、第二终端设备102、第三终端设备103、能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中的一种中。
应该理解,图1中的终端设备、网络、服务器和图像采集设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器和图像采集设备。
图2示出了根据本发明实施例的图像匹配模型的训练方法的流程图。
如图2所示,图像匹配模型的训练方法包括操作S201~操作S206。
在操作S201,获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,其中,不同图像特征对应于一个训练数据集的不同训练图像,图像处理参数表征图像色彩的数值值域;
在操作S202,利用描述符学习模型的多头注意力层根据键向量、值向量和查询向量,生成新的图像处理参数;
在操作S203,针对每个训练图像,根据新的图像处理参数和图像特征,生成上下文特征图;
在操作S204,将多个上下文特征图输入至关键点检测模型,输出与每个上下文特征图对应的检测评分图和关键点检测器,其中,初始匹配模型包括描述符学习模型和关键点检测模型;
在操作S205,将与每个训练数据集对应的多个检测评分图和多个关键点检测器输入损失函数,输出损失结果;
在操作S206,根据损失结果迭代地调整初始匹配模型的网络参数,生成经训练的图像匹配模型。
根据本发明的实施例,给定展平的图像特征,设计了M个描述符学习模型的图像处理参数/>和图像特征/>通过注意力机制进行交互,其中图像处理参数/>使用一组可学习的参数进行初始化。具体地,键向量K和值向量V从/>中产生,查询向量从/>中产生,可以形式化表示为公式(1)。
(1)
其中,R为实数,其表征训练图像上的色彩参数的数值值域,例如RGB参数,d表征训练图像的通道数,h和w分别为训练图像的分辨率高度和宽度,W为编码参数,,,/>是线性投影。然后描述符学习模型以公式(2)所示的多头注意力方式进行更新得到新的图像处理参数/>。通过这种方式,/>可以有效地捕获长程上下文。
(2)
根据本发明的实施例,针对每个训练图像,根据新的图像处理参数和图像特征,生成上下文特征图F。将多个上下文特征图输入至关键点检测模型,输出与每个上下文特征图对应的检测评分图和关键点检测器/>。将与每个训练数据集对应的多个检测评分图和多个关键点检测器输入损失函数,输出损失结果/>,根据损失结果/>迭代地调整初始匹配模型的网络参数,生成经训练的图像匹配模型。
根据本发明的实施例,通过描述符学习模型的图像处理参数生成查询向量,该查询向量在多头注意力层中结合从图像特征提取的键向量和值向量生成描述符学习模型的新的图像处理参数,并基于新的图像处理参数和图像特征生成上下文特征图,根据上下文特征图生成检测评分图和关键点检测器,最终生成图像匹配模型,该模型能够在较为恶劣的环境因素下得到鲁棒性较好的图像匹配结果,同时能够降低图像匹配的成本以及内存的消耗。
根据本发明的实施例,根据新的图像处理参数和图像特征,生成上下文特征图,包括如下操作:
根据新的图像处理参数和图像特征,计算特征相似度;
根据特征相似度、新的图像处理参数和图像特征,得到新的图像特征;
对新的图像特征进行重塑处理,得到上下文特征图。
根据本发明的实施例,通过融合来更新原始的图像特征/>,以获得表征上下文特征描述符的上下文特征图。为此,计算/>和新的图像处理参数/>之间的相似度得分S。进一步,图像特征/>将会通过残差形式进行更新,得到新的图像特征/>,如公式(3)。
(3)
最后将新的图像特征重塑为/>以获得最终的上下文特征图F。
图3示出了根据本发明另一实施例的图像匹配模型的训练方法的流程图。
根据本发明的实施例,关键点检测模型包括i个检测代理参数,i大于等于2。
根据本发明的实施例,将多个上下文特征图输入至关键点检测模型,输出与每个上下文特征图对应的检测评分图和关键点检测器,包括如下操作:
在i=1的情况下,利用第i检测解码器处理第i检测代理参数和上下文特征图,生成第i目标检测代理参数;
对上下文特征图进行卷积采样处理,得到第i输出特征图;
在i>1的情况下,根据第i-1输出特征图和第i检测代理参数,生成第i过渡特征图,并对第i-1输出特征图进行卷积采样处理,得到第i输出特征图;
利用第i检测解码器处理第i-1目标检测代理参数和第i过渡特征图,生成第i目标检测代理参数;
根据上下文特征图和多个目标检测代理参数,生成检测评分图和关键点检测器。
根据本发明的实施例,为了便于对本发明进行描述,以下实施例以i=3进行示意性描述,需要说明的是,本实施例的i=3并非是限制检测代理参数的数量只能为3,其可以根据具体需求进行设置。
根据本发明的实施例,如图3所示,对于第1个检测代理参数,对该可学习的检测代理参数进行初始化,将上下文特征图F进行压平,得到特征序列,将该特征序列和初始化后的第1个检测代理参数输入至第i检测解码器,可以得到第1目标检测代理参数/>,同时对上下文特征图进行卷积采样(卷积+下采样)处理,得到第1输出特征图/>。
根据本发明的实施例,对于第2个检测代理参数,根据第1输出特征图和第2检测代理参数/>,生成第2过渡特征图,并对第1输出特征图/>进行卷积采样处理,得到第2输出特征图/>。利用第2检测解码器处理第1目标检测代理参数/>和第2过渡特征图,生成第2目标检测代理参数/>。
在i>1时,具体的卷积采样处理为:利用卷积操作对上下文特征图F下采样得到,其中/>。然后通过一个卷积层产生/>个代理掩模 />。最后将/>和/>展平并按照公式(4)产生检测器代理/>。
(4)
根据本发明的实施例,对于第3个检测代理参数,根据第2输出特征图和第3检测代理参数/>,生成第3过渡特征图,并对第2输出特征图/>进行卷积采样处理,得到第3输出特征图/>(对于最后检测代理参数,可以不生成第i输出特征图/>)。利用第3检测解码器处理第2目标检测代理参数/>和第3过渡特征图,生成第3目标检测代理参数/>。
根据本发明的实施例,根据上下文特征图F和多个目标检测代理参数(、/>、/>),生成检测评分图/>和关键点检测器D。
根据本发明的实施例,根据上下文特征图和多个目标检测代理参数,生成检测评分图和关键点检测器,包括如下操作:
对多个目标检测代理参数进行聚合处理,得到关键点检测器;
对关键点检测器和上下文特征图进行点积运算,得到检测评分图。
根据本发明的实施例,对多个目标检测代理参数(、/>、/>)进行聚合处理,得到关键点检测器D={/> ,/> ,/>}。通过关键点检测器D={/> ,/> ,/> }和上下文特征图F之间的点积运算生成检测评分图/>。
根据本发明的实施例,对多个目标检测代理参数进行聚合处理,得到关键点检测器,包括如下操作:
根据多个目标检测代理参数、键向量、值向量和查询向量,生成关键点检测函数;
对关键点检测函数进行归一化处理,得到第一过渡检测器;
利用多层感知机处理第一过渡检测器,生成第二过渡检测器;
对第一过渡检测器和第二过渡检测器进行归一化处理,得到关键点检测器。
根据本发明的实施例,根据多个目标检测代理参数、键向量、值向量和查询向量/>,生成关键点检测函数/>。对该函数进行归一化处理,得到如公式(5)所示的第一过渡检测器/>。
(5)
根据本发明的实施例,利用多层感知机处理第一过渡检测器,生成第二过渡检测器/>。对第一过渡检测器/>和第二过渡检测器/>进行归一化处理,得到如公式(6)所示的关键点检测器。
(6)
根据本发明的实施例,将与每个训练数据集对应的多个检测评分图和多个关键点检测器输入损失函数,输出损失结果,包括如下操作:
利用余弦相似度损失函数处理多个检测评分图,得到第一损失结果;
针对每个训练图像,利用峰值损失函数处理检测评分图,得到第二损失结果;
针对每个训练图像,利用多样性损失函数处理与训练图像对应的图像处理参数,生成第三损失结果;
根据第一损失结果、多个第二损失结果和多个第三损失结果,生成损失结果。
根据本发明的实施例,利用余弦相似度损失函数处理多个检测评分图来强制两幅图像之间的检测评分图在对应的局部补丁中具有较高的相似性,得到第一损失结果。为了使关键点检测器聚焦于显著位置,使用峰值损失函数来最大化检测检测评分图/>的局部峰值,从而得到对应于每个训练图像的第二损失结果/>。
根据本发明的实施例,为了扩大描述符学习模型的图像处理参数之间的差异,施加了如公式(7)所示的多样性损失,得到第三损失结果/>。
(7)
最后,将第一损失结果、多个第二损失结果和多个第三损失结果加权组合生成如公式(8)所示的损失结果。
(8)
其中,和/>是预设的平衡权重项。/>和/>的数量与进行匹配的训练图像的数量相关,例如一个训练数据集包括两个训练图像,则损失结果则是根据一个第一损失结果、两个第二损失结果和两个第三损失结果生成的。
根据本发明的实施例,在训练的过程中,可以设定一个收敛值,在损失结果满足该收敛值的情况下,将迭代调整后的初始匹配模型确定为经训练的图像匹配模型。
根据本发明的实施例,初始匹配模型还包括特征提取层。
其中,获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,包括如下操作:
获取多个训练图像;
针对每个训练图像,利用特征提取层对训练图像进行特征提取处理,得到图像特征;
分别对图像特征和图像处理参数进行编码处理,得到键向量、值向量和查询向量。
根据本发明的实施例,对每个训练图像进行特征提取处理,得到对应的图像特征,对该图像特征进行编码处理,即可得到键向量和值向量,对图像处理参数进行编码处理可得到查询向量。
图4示出了根据本发明实施例的图像匹配方法的流程图。
如图4所示,图像匹配方法操作S401~操作S402。
在操作S401,获取多个待检测图像的待检测图像特征;
在操作S402,将多个待检测图像特征输入图像匹配模型,输出目标评分图和与每个待检测图像对应的目标关键点检测器,其中,目标评分图中的每个局部区域评分表征多个待检测图像在局部区域的匹配程度。
在一种实施例中,对不同图像采集设备采集的两个待检测图像分别进行特征提取处理,得到对应的待检测图像特征,将两个待检测图像特征输入图像匹配模型,输出目标评分图和与每个待检测图像对应的目标关键点检测器。
根据本发明的实施例,在该目标评分图中每个局部区域的多个评分中寻找最大值并映射在一个固定区间内,对于其他的评分可以归零处理,通过设定一个评分阈值对映射后的评分进行筛选,即可确定两张待检测图像之间的匹配程度,从而便于对不同图像采集设备的姿态和移动距离进行确定,进而便于后期对待检测图像对应的建筑等场景进行三维重建。
根据本发明的实施例,通过描述符学习模型的图像处理参数生成查询向量,该查询向量在多头注意力层中结合从图像特征提取的键向量和值向量生成描述符学习模型的新的图像处理参数,并基于新的图像处理参数和图像特征生成上下文特征图,根据上下文特征图生成检测评分图和关键点检测器,最终生成图像匹配模型,该模型能够在较为恶劣的环境因素下得到鲁棒性较好的图像匹配结果,同时能够降低图像匹配的成本以及内存的消耗。
图5示出了根据本发明实施例的图像匹配模型的训练装置的框图。
如图5所示,图像匹配模型的训练装置500包括第一获取模块510、第一生成模块520、第二生成模块530、输出模块540、损失计算模块550、迭代调整模块560。
第一获取模块510,用于获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,其中,不同图像特征对应于一个训练数据集的不同训练图像,图像处理参数表征图像色彩的数值值域。
第一生成模块520,用于利用描述符学习模型的多头注意力层根据键向量、值向量和查询向量,生成新的图像处理参数。
第二生成模块530,用于针对每个训练图像,根据新的图像处理参数和图像特征,生成上下文特征图。
输出模块540,用于将多个上下文特征图输入至关键点检测模型,输出与每个上下文特征图对应的检测评分图和关键点检测器,其中,初始匹配模型包括描述符学习模型和关键点检测模型。
损失计算模块550,用于将与每个训练数据集对应的多个检测评分图和多个关键点检测器输入损失函数,输出损失结果。
迭代调整模块560,用于根据损失结果迭代地调整初始匹配模型的网络参数,生成经训练的图像匹配模型。
根据本发明的实施例,通过描述符学习模型的图像处理参数生成查询向量,该查询向量在多头注意力层中结合从图像特征提取的键向量和值向量生成描述符学习模型的新的图像处理参数,并基于新的图像处理参数和图像特征生成上下文特征图,根据上下文特征图生成检测评分图和关键点检测器,最终生成图像匹配模型,该模型能够在较为恶劣的环境因素下得到鲁棒性较好的图像匹配结果,同时能够降低图像匹配的成本以及内存的消耗。
根据本发明的实施例,第二生成模块530包括计算子模块、更新子模块、重塑子模块。
计算子模块,用于根据新的图像处理参数和图像特征,计算特征相似度。
更新子模块,用于根据特征相似度、新的图像处理参数和图像特征,得到新的图像特征。
重塑子模块,用于对新的图像特征进行重塑处理,得到上下文特征图。
根据本发明的实施例,关键点检测模型包括i个检测代理参数,i大于等于2。
根据本发明的实施例,输出模块540包括第一生成子模块、第一得到子模块、第二生成子模块、第三生成子模块、第四生成子模块。
第一生成子模块,用于在i=1的情况下,利用第i检测解码器处理第i检测代理参数和上下文特征图,生成第i目标检测代理参数。
第一得到子模块,用于对上下文特征图进行卷积采样处理,得到第i输出特征图。
第二生成子模块,用于在i>1的情况下,根据第i-1输出特征图和第i检测代理参数,生成第i过渡特征图,并对第i-1输出特征图进行卷积采样处理,得到第i输出特征图。
第三生成子模块,用于利用第i检测解码器处理第i-1目标检测代理参数和第i过渡特征图,生成第i目标检测代理参数。
第四生成子模块,用于根据上下文特征图和多个目标检测代理参数,生成检测评分图和关键点检测器。
根据本发明的实施例,第四生成子模块包括聚合单元、运算单元。
聚合单元,用于对多个目标检测代理参数进行聚合处理,得到关键点检测器。
运算单元,用于对关键点检测器和上下文特征图进行点积运算,得到检测评分图。
根据本发明的实施例,聚合单元包括第一生成子单元、第二生成子单元、第三生成子单元、第四生成子单元。
第一生成子单元,用于根据多个目标检测代理参数、键向量、值向量和查询向量,生成关键点检测函数。
第二生成子单元,用于对关键点检测函数进行归一化处理,得到第一过渡检测器。
第三生成子单元,用于利用多层感知机处理第一过渡检测器,生成第二过渡检测器。
第四生成子单元,用于对第一过渡检测器和第二过渡检测器进行归一化处理,得到关键点检测器。
根据本发明的实施例,损失计算模块550包括第一损失子模块、第二损失子模块、第三损失子模块、损失合并子模块。
第一损失子模块,用于利用余弦相似度损失函数处理多个检测评分图,得到第一损失结果。
第二损失子模块,用于针对每个训练图像,利用峰值损失函数处理检测评分图,得到第二损失结果。
第三损失子模块,用于针对每个训练图像,利用多样性损失函数处理与训练图像对应的图像处理参数,生成第三损失结果。
损失合并子模块,用于根据第一损失结果、多个第二损失结果和多个第三损失结果,生成损失结果。
根据本发明的实施例,初始匹配模型还包括特征提取层。
根据本发明的实施例,第一获取模块510包括获取子模块、特征提取子模块、编码子模块。
获取子模块,用于获取多个训练图像。
特征提取子模块,用于针对每个训练图像,利用特征提取层对训练图像进行特征提取处理,得到图像特征。
编码子模块,用于分别对图像特征和图像处理参数进行编码处理,得到键向量、值向量和查询向量。
图6示出了根据本发明实施例的图像匹配装置的框图。
如图6所示,图像匹配装置600包括第二获取模块610和匹配模块620。
第二获取模块610,用于获取多个待检测图像的待检测图像特征。
匹配模块620,用于将多个待检测图像特征输入图像匹配模型,输出目标评分图和与每个待检测图像对应的目标关键点检测器,其中,目标评分图中的每个局部区域评分表征多个待检测图像在局部区域的匹配程度。
根据本发明的实施例,通过描述符学习模型的图像处理参数生成查询向量,该查询向量在多头注意力层中结合从图像特征提取的键向量和值向量生成描述符学习模型的新的图像处理参数,并基于新的图像处理参数和图像特征生成上下文特征图,根据上下文特征图生成检测评分图和关键点检测器,最终生成图像匹配模型,该模型能够在较为恶劣的环境因素下得到鲁棒性较好的图像匹配结果,同时能够降低图像匹配的成本以及内存的消耗。
根据本发明的实施例的模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明实施例的模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本发明实施例的模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(Field ProgrammableGate Array ,FPGA)、可编程逻辑阵列(Programmable Logic Arrays ,PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(Application Specific Integrated Circuit,ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发明实施例的模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获取模块510、第一生成模块520、第二生成模块530、输出模块540、损失计算模块550和迭代调整模块560,或第二获取模块610和匹配模块620中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本发明的实施例,第一获取模块510、第一生成模块520、第二生成模块530、输出模块540、损失计算模块550和迭代调整模块560,或第二获取模块610和匹配模块620中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块510、第一生成模块520、第二生成模块530、输出模块540、损失计算模块550和迭代调整模块560,或第二获取模块610和匹配模块620中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本发明的实施例中图像匹配模型的训练装置部分与本发明的实施例中图像匹配模型的训练方法部分是相对应的,图像匹配模型的训练装置部分的描述具体参考图像匹配模型的训练方法部分,在此不再赘述。同理,本发明的实施例中图像匹配装置部分与本发明的实施例中图像匹配方法部分是相对应的,图像匹配装置部分的描述具体参考图像匹配方法部分,在此不再赘述。
图7示出了根据本发明实施例的适于实现上文描述的方法的电子设备的框图。图7示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,根据本发明实施例的电子设备700包括处理器701,其可以根据存储在只读存储器(Read-Only Memory,ROM)702中的程序或者从存储部分708加载到随机访问存储器(Random Access Memory,RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有电子设备700操作所需的各种程序和数据。处理器 701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。系统700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
根据本发明的实施例,根据本发明实施例的方法流程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM(Erasable Programmable Read Only Memory,EPROM)或闪存)、便携式紧凑磁盘只读存储器(Computer Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本发明实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本发明实施例所提供的图像匹配模型的训练方法或图像匹配方法。
在该计算机程序被处理器701执行时,执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分709被下载和安装,和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
根据本发明的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
Claims (7)
1.一种图像匹配模型的训练方法,其特征在于,包括:
获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,其中,不同所述图像特征对应于一个训练数据集的不同训练图像,所述图像处理参数表征图像色彩的数值值域;
利用所述描述符学习模型的多头注意力层根据所述键向量、所述值向量和所述查询向量,生成新的图像处理参数;
针对每个所述训练图像,根据所述新的图像处理参数和所述图像特征,生成上下文特征图;
将多个所述上下文特征图输入至关键点检测模型,输出与每个所述上下文特征图对应的检测评分图和关键点检测器,其中,初始匹配模型包括所述描述符学习模型和所述关键点检测模型;
将与每个所述训练数据集对应的多个检测评分图和多个所述关键点检测器输入损失函数,输出损失结果;
根据所述损失结果迭代地调整所述初始匹配模型的网络参数,生成经训练的所述图像匹配模型;
其中,所述关键点检测模型包括i个检测代理参数,i大于等于2;
其中,将多个所述上下文特征图输入至关键点检测模型,输出与每个所述上下文特征图对应的检测评分图和关键点检测器,包括:
在i=1的情况下,利用第i检测解码器处理第i检测代理参数和所述上下文特征图,生成第i目标检测代理参数;
对所述上下文特征图进行卷积采样处理,得到第i输出特征图;
在i>1的情况下,根据第i-1输出特征图和第i检测代理参数,生成第i过渡特征图,并对所述第i-1输出特征图进行卷积采样处理,得到第i输出特征图;
利用第i检测解码器处理第i-1目标检测代理参数和所述第i过渡特征图,生成第i目标检测代理参数;
根据所述上下文特征图和多个所述目标检测代理参数,生成所述检测评分图和所述关键点检测器;
其中,根据所述上下文特征图和多个所述目标检测代理参数,生成所述检测评分图和所述关键点检测器,包括:
对多个所述目标检测代理参数进行聚合处理,得到所述关键点检测器;
对所述关键点检测器和所述上下文特征图进行点积运算,得到所述检测评分图;
其中,对多个所述目标检测代理参数进行聚合处理,得到所述关键点检测器,包括:
根据多个所述目标检测代理参数、所述键向量、所述值向量和所述查询向量,生成关键点检测函数;
对所述关键点检测函数进行归一化处理,得到第一过渡检测器;
利用多层感知机处理所述第一过渡检测器,生成第二过渡检测器;
对所述第一过渡检测器和所述第二过渡检测器进行归一化处理,得到所述关键点检测器。
2.根据权利要求1所述的训练方法,其特征在于,根据所述新的图像处理参数和所述图像特征,生成上下文特征图,包括:
根据所述新的图像处理参数和所述图像特征,计算特征相似度;
根据所述特征相似度、所述新的图像处理参数和所述图像特征,得到新的图像特征;
对所述新的图像特征进行重塑处理,得到所述上下文特征图。
3.根据权利要求1所述的训练方法,其特征在于,将与每个所述训练数据集对应的多个检测评分图和多个所述关键点检测器输入损失函数,输出损失结果,包括:
利用余弦相似度损失函数处理多个所述检测评分图,得到第一损失结果;
针对每个所述训练图像,利用峰值损失函数处理所述检测评分图,得到第二损失结果;
针对每个所述训练图像,利用多样性损失函数处理与所述训练图像对应的所述图像处理参数,生成第三损失结果;
根据所述第一损失结果、多个所述第二损失结果和多个所述第三损失结果,生成所述损失结果。
4.根据权利要求1所述的训练方法,其特征在于,所述初始匹配模型还包括特征提取层;
其中,所述获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,包括:
获取多个所述训练图像;
针对每个所述训练图像,利用所述特征提取层对所述训练图像进行特征提取处理,得到所述图像特征;
分别对所述图像特征和所述图像处理参数进行编码处理,得到所述键向量、所述值向量和所述查询向量。
5.一种图像匹配方法,其特征在于,包括:
获取多个待检测图像的待检测图像特征;
将多个所述待检测图像特征输入图像匹配模型,输出目标评分图和与每个所述待检测图像对应的目标关键点检测器,其中,所述目标评分图中的每个局部区域评分表征多个所述待检测图像在所述局部区域的匹配程度;
其中,所述图像匹配模型是利用如权利要求1至4中任一项所述的方法训练得到的。
6.一种图像匹配模型的训练装置,其特征在于,包括:
第一获取模块,用于获取与不同图像特征对应的键向量和值向量以及基于描述符学习模型的图像处理参数得到的查询向量,其中,不同所述图像特征对应于一个训练数据集的不同训练图像,所述图像处理参数表征图像色彩的数值值域;
第一生成模块,用于利用所述描述符学习模型的多头注意力层根据所述键向量、所述值向量和所述查询向量,生成新的图像处理参数;
第二生成模块,用于针对每个所述训练图像,根据所述新的图像处理参数和所述图像特征,生成上下文特征图;
输出模块,用于将多个所述上下文特征图输入至关键点检测模型,输出与每个所述上下文特征图对应的检测评分图和关键点检测器,其中,初始匹配模型包括所述描述符学习模型和所述关键点检测模型;
损失计算模块,用于将与每个所述训练数据集对应的多个检测评分图和多个所述关键点检测器输入损失函数,输出损失结果;
迭代调整模块,用于根据所述损失结果迭代地调整所述初始匹配模型的网络参数,生成经训练的所述图像匹配模型;
其中,关键点检测模型包括i个检测代理参数,i大于等于2;
其中,输出模块包括:
第一生成子模块,用于在i=1的情况下,利用第i检测解码器处理第i检测代理参数和上下文特征图,生成第i目标检测代理参数;
第一得到子模块,用于对上下文特征图进行卷积采样处理,得到第i输出特征图;
第二生成子模块,用于在i>1的情况下,根据第i-1输出特征图和第i检测代理参数,生成第i过渡特征图,并对第i-1输出特征图进行卷积采样处理,得到第i输出特征图;
第三生成子模块,用于利用第i检测解码器处理第i-1目标检测代理参数和第i过渡特征图,生成第i目标检测代理参数;
第四生成子模块,用于根据上下文特征图和多个目标检测代理参数,生成检测评分图和关键点检测器;
其中,第四生成子模块包括:
聚合单元,用于对多个目标检测代理参数进行聚合处理,得到关键点检测器;
运算单元,用于对关键点检测器和上下文特征图进行点积运算,得到检测评分图;
其中,聚合单元包括:
第一生成子单元,用于根据多个目标检测代理参数、键向量、值向量和查询向量,生成关键点检测函数;
第二生成子单元,用于对关键点检测函数进行归一化处理,得到第一过渡检测器;
第三生成子单元,用于利用多层感知机处理第一过渡检测器,生成第二过渡检测器;
第四生成子单元,用于对第一过渡检测器和第二过渡检测器进行归一化处理,得到关键点检测器。
7.一种图像匹配装置,其特征在于,包括:
第二获取模块,用于获取多个待检测图像的待检测图像特征;
匹配模块,用于将多个所述待检测图像特征输入图像匹配模型,输出目标评分图和与每个所述待检测图像对应的目标关键点检测器,其中,所述目标评分图中的每个局部区域评分表征多个所述待检测图像在所述局部区域的匹配程度;
其中,所述图像匹配模型是利用如权利要求1至4中任一项所述的方法训练得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417575.2A CN116129228B (zh) | 2023-04-19 | 2023-04-19 | 图像匹配模型的训练方法、图像匹配方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417575.2A CN116129228B (zh) | 2023-04-19 | 2023-04-19 | 图像匹配模型的训练方法、图像匹配方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116129228A CN116129228A (zh) | 2023-05-16 |
CN116129228B true CN116129228B (zh) | 2023-07-18 |
Family
ID=86308545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310417575.2A Active CN116129228B (zh) | 2023-04-19 | 2023-04-19 | 图像匹配模型的训练方法、图像匹配方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129228B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116645700B (zh) * | 2023-07-27 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 特征提取模型处理方法、装置和特征提取方法、装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9020982B2 (en) * | 2012-10-15 | 2015-04-28 | Qualcomm Incorporated | Detection of planar targets under steep angles |
US10402448B2 (en) * | 2017-06-28 | 2019-09-03 | Google Llc | Image retrieval with deep local feature descriptors and attention-based keypoint descriptors |
WO2019010147A1 (en) * | 2017-07-05 | 2019-01-10 | Siemens Aktiengesellschaft | SEMI-SUPERVISED ITERATIVE LEARNING OF KEY POINTS AND INVARIANT CHARACTERISTICS IN VIEW OF THE VISUAL RECOGNITION |
US11830253B2 (en) * | 2020-04-14 | 2023-11-28 | Toyota Research Institute, Inc. | Semantically aware keypoint matching |
US12094184B2 (en) * | 2020-09-22 | 2024-09-17 | Apple Inc. | Contextual matching |
US11804040B2 (en) * | 2021-03-17 | 2023-10-31 | Qualcomm Incorporated | Keypoint-based sampling for pose estimation |
CN114119987A (zh) * | 2021-11-19 | 2022-03-01 | 云南电网有限责任公司电力科学研究院 | 基于卷积神经网络的特征提取和描述子生成方法及系统 |
CN113902926B (zh) * | 2021-12-06 | 2022-05-31 | 之江实验室 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
CN114972937A (zh) * | 2022-01-11 | 2022-08-30 | 西安交通大学 | 一种基于深度学习的特征点检测与描述子生成方法 |
CN114419349B (zh) * | 2022-03-30 | 2022-07-15 | 中国科学技术大学 | 一种图像匹配方法和装置 |
CN114429192B (zh) * | 2022-04-02 | 2022-07-15 | 中国科学技术大学 | 一种图像匹配方法、装置和电子设备 |
CN114758152A (zh) * | 2022-04-25 | 2022-07-15 | 东南大学 | 一种基于注意力机制和邻域一致性的特征匹配方法 |
US11482048B1 (en) * | 2022-05-10 | 2022-10-25 | INSEER Inc. | Methods and apparatus for human pose estimation from images using dynamic multi-headed convolutional attention |
CN115690479A (zh) * | 2022-05-23 | 2023-02-03 | 安徽理工大学 | 一种基于卷积Transformer的遥感图像分类方法及系统 |
CN115049842B (zh) * | 2022-06-16 | 2023-11-17 | 南京航空航天大学深圳研究院 | 一种飞机蒙皮图像损伤检测与2d-3d定位方法 |
CN115222977A (zh) * | 2022-08-01 | 2022-10-21 | 天津大学 | 一种智能多视图立体匹配方法及装置 |
CN115937406A (zh) * | 2022-09-29 | 2023-04-07 | 厦门美图之家科技有限公司 | 三维重建方法、装置、设备及存储介质 |
CN115984587A (zh) * | 2022-11-28 | 2023-04-18 | 东南大学 | 联合混合尺度特征描述子与邻居一致性的图像匹配方法 |
CN115661254B (zh) * | 2022-12-08 | 2023-05-16 | 粤港澳大湾区数字经济研究院(福田) | 一种多人姿态估计方法及相关装置 |
CN115880502A (zh) * | 2022-12-15 | 2023-03-31 | 北京百度网讯科技有限公司 | 检测模型的训练方法、目标检测方法、装置、设备和介质 |
CN115860091B (zh) * | 2023-02-15 | 2023-04-28 | 武汉图科智能科技有限公司 | 一种基于正交约束的深度特征描述符学习方法 |
-
2023
- 2023-04-19 CN CN202310417575.2A patent/CN116129228B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116129228A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11594006B2 (en) | Self-supervised hierarchical motion learning for video action recognition | |
WO2022111506A1 (zh) | 视频动作识别方法、装置、电子设备和存储介质 | |
CN107330439B (zh) | 一种图像中物体姿态的确定方法、客户端及服务器 | |
WO2019242416A1 (zh) | 视频图像处理方法及装置、计算机可读介质和电子设备 | |
CN108229296B (zh) | 人脸皮肤属性识别方法和装置、电子设备、存储介质 | |
WO2019219083A1 (zh) | 视频检索方法及视频检索映射关系生成方法、装置 | |
WO2020006961A1 (zh) | 用于提取图像的方法和装置 | |
WO2019024808A1 (zh) | 语义分割模型的训练方法和装置、电子设备、存储介质 | |
US11132392B2 (en) | Image retrieval method, image retrieval apparatus, image retrieval device and medium | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
CN108875487B (zh) | 行人重识别网络的训练及基于其的行人重识别 | |
CN112381828B (zh) | 基于语义和深度信息的定位方法、装置、介质与设备 | |
US20150278997A1 (en) | Method and apparatus for inferring facial composite | |
US10929676B2 (en) | Video recognition using multiple modalities | |
US20240029297A1 (en) | Visual positioning method, storage medium and electronic device | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
WO2022033111A1 (zh) | 图像信息提取方法、训练方法及装置、介质和电子设备 | |
WO2022242127A1 (zh) | 图像特征提取方法、装置、电子设备及存储介质 | |
CN111950570B (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN116129228B (zh) | 图像匹配模型的训练方法、图像匹配方法及其装置 | |
CN113793370B (zh) | 三维点云配准方法、装置、电子设备及可读介质 | |
CN113569740B (zh) | 视频识别模型训练方法与装置、视频识别方法与装置 | |
JP2023520625A (ja) | 画像特徴マッチング方法及び関連装置、機器並びに記憶媒体 | |
CN114565668A (zh) | 即时定位与建图方法及装置 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |