CN115601576A - 图像特征匹配方法、装置、设备及存储介质 - Google Patents

图像特征匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115601576A
CN115601576A CN202211587766.5A CN202211587766A CN115601576A CN 115601576 A CN115601576 A CN 115601576A CN 202211587766 A CN202211587766 A CN 202211587766A CN 115601576 A CN115601576 A CN 115601576A
Authority
CN
China
Prior art keywords
image
matching
modality
sample image
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211587766.5A
Other languages
English (en)
Other versions
CN115601576B (zh
Inventor
廖赟
周豪
邸一得
朱开军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Lanyi Network Technology Co ltd
Original Assignee
Yunnan Lanyi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Lanyi Network Technology Co ltd filed Critical Yunnan Lanyi Network Technology Co ltd
Priority to CN202211587766.5A priority Critical patent/CN115601576B/zh
Publication of CN115601576A publication Critical patent/CN115601576A/zh
Application granted granted Critical
Publication of CN115601576B publication Critical patent/CN115601576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种图像特征匹配方法、装置、设备及存储介质,该方法包括获取第一模态样本图像和第二模态样本图像的关键点,匹配对应的关键图像块;提取关键图像块的特征,对第一模态样本图像和第二模态样本图像对应的特征进行匹配;根据匹配概率,调整策略梯度网络,并返回执行提取关键图像块的特征与特征匹配,直至训练收敛,获得图像特征匹配模型;利用图像特征匹配模型对第一模态匹配图像和第二模态匹配图像进行图像特征匹配。本发明通过匹配不同模态样本图像中关键图像块的特征,根据匹配概率,调整策略梯度网络,迭代训练直至收敛,获得对不同模态图像进行图像特征匹配的模型,解决了目前多模态图像的特征匹配能力与精准度不高的技术问题。

Description

图像特征匹配方法、装置、设备及存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及到一种图像特征匹配方法、装置、设备及存储介质。
背景技术
图像间的特征匹配是计算机视觉中的一个重要的问题,特别是对于具有不同形态的图像。图像分类、图像拼接、图像融合、图像匹配等图像处理任务都是在匹配好的图像上进行的,因此设计一种高效的特征匹配方法是非常重要的。
多模态图像主要包括光学图像、SAR图像、近红外图像、短波红外图像和深度图像等。不同模态图像在成像机理、几何特征、辐射特征等方面都有较大的区别。因此,如何提高多模态图像的特征匹配能力与精准度,是一个亟需解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种图像特征匹配方法、装置、设备及存储介质,旨在解决目前多模态图像的特征匹配能力与精准度不高的技术问题。
为实现上述目的,本发明提供一种图像特征匹配方法,所述方法包括以下步骤:
获取第一模态样本图像和第二模态样本图像的关键点,匹配所述关键点在第一模态样本图像和第二模态样本图像中对应的关键图像块;
提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配;
根据所述匹配的匹配概率,调整策略梯度网络,并返回执行提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配步骤,直至训练收敛,获得图像特征匹配模型;
在接收到第一模态匹配图像和第二模态匹配图像时,利用所述图像特征匹配模型对第一模态匹配图像和第二模态匹配图像进行图像特征匹配。
可选的,所述获取第一模态样本图像和第二模态样本图像的关键点步骤,具体为:
将第一模态样本图像和第二模态样本图像转化为灰度图像,利用高斯差分算法对所述灰度图像进行处理,获得每个像素点的DOG值;
基于所述DOG值,获取第一模态样本图像和第二模态样本图像的关键点;其中,所述关键点的DOG值为其所有相邻像素点的最大值或最小值。
可选的,所述提取所述关键图像块的特征步骤,具体为:基于初始的策略梯度网 络,提取所述关键图像块的特征;其中,所述初始的策略梯度网络包括UNet网络和 Transformer网络,所述特征包括第一模态样本图像
Figure 422464DEST_PATH_IMAGE001
对应的输出特征
Figure 741318DEST_PATH_IMAGE002
和第二模态样 本图像
Figure 798136DEST_PATH_IMAGE003
对应的输出特征
Figure 876951DEST_PATH_IMAGE004
可选的,第一模态样本图像和第二模态样本图像对应的特征的匹配概率采用dual-softmax算法获得,所述匹配概率的表达式,具体为:
Figure 564808DEST_PATH_IMAGE005
其中,
Figure 8559DEST_PATH_IMAGE006
为匹配概率,i和j均为单位向量,S为对齐横向和纵向每个维度的 每个位置运行一次Softmax算法。
可选的,所述根据所述匹配的匹配概率,调整策略梯度网络步骤,具体包括:
当所述匹配概率大于阈值μ,且对应的第一模态样本图像和第二模态样本图像为正例,给予奖励α,α为正值;
当所述匹配概率小于阈值μ,且对应的第一模态样本图像和第二模态样本图像为负例,给予奖励β,β为0;
当所述匹配概率与阈值μ、对应的第一模态样本图像和第二模态样本图像满足其他情况时,给予奖励γ。
可选的,所述γ的表达式,具体为:
Figure 146148DEST_PATH_IMAGE007
其中,γ为奖励值,epoch为迭代次数,n为奖励值设置为0的周期数。
可选的,所述策略梯度网络中策略梯度的表达式,具体为:
Figure 887708DEST_PATH_IMAGE008
Figure 177875DEST_PATH_IMAGE009
+
Figure 572953DEST_PATH_IMAGE010
其中,E为期望,
Figure 682992DEST_PATH_IMAGE011
为梯度,
Figure 559068DEST_PATH_IMAGE012
为动作|状态序列,所述动作为:第一模态样本图 像
Figure 625113DEST_PATH_IMAGE013
和第二模态样本图像
Figure 4142DEST_PATH_IMAGE014
的匹配,所述状态为:输出特征
Figure 867056DEST_PATH_IMAGE015
和输出特征
Figure 543894DEST_PATH_IMAGE016
Figure 543074DEST_PATH_IMAGE017
为输 出特征
Figure 279955DEST_PATH_IMAGE015
与输出特征
Figure 364585DEST_PATH_IMAGE016
的匹配参数,
Figure 582464DEST_PATH_IMAGE018
为输出特征
Figure 904993DEST_PATH_IMAGE015
与输出特征
Figure 671829DEST_PATH_IMAGE016
匹配对应的 奖励。
此外,为了实现上述目的,本发明还提供了一种图像特征匹配装置,所述图像特征匹配装置包括:
匹配模块,用于获取第一模态样本图像和第二模态样本图像的关键点,匹配所述关键点在第一模态样本图像和第二模态样本图像中对应的关键图像块;
提取模块,用于提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配;
迭代模块,用于根据所述匹配的匹配概率,调整策略梯度网络,并返回执行提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配步骤,直至训练收敛,获得图像特征匹配模型;
匹配模块,用于在接收到第一模态匹配图像和第二模态匹配图像时,利用所述图像特征匹配模型对第一模态匹配图像和第二模态匹配图像进行图像特征匹配。
此外,为了实现上述目的,本发明还提供了一种图像特征匹配设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像特征匹配程序,所述图像特征匹配程序被所述处理器执行时实现上述的图像特征匹配方法的步骤。
此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有图像特征匹配程序,所述图像特征匹配程序被处理器执行时实现上述的图像特征匹配方法的步骤。
本发明实施例提出的一种图像特征匹配方法、装置、设备及存储介质,该方法包括获取第一模态样本图像和第二模态样本图像的关键点,匹配对应的关键图像块;提取关键图像块的特征,对第一模态样本图像和第二模态样本图像对应的特征进行匹配;根据匹配概率,调整策略梯度网络,并返回执行提取关键图像块的特征与特征匹配,直至训练收敛,获得图像特征匹配模型;利用图像特征匹配模型对第一模态匹配图像和第二模态匹配图像进行图像特征匹配。本发明通过匹配不同模态样本图像中关键图像块的特征,根据匹配概率,调整策略梯度网络,迭代训练直至收敛,获得对不同模态图像进行图像特征匹配的模型,解决了目前多模态图像的特征匹配能力与精准度不高的技术问题。
附图说明
图1为本发明实施例中一种图像特征匹配设备的结构示意图。
图2为本发明图像特征匹配方法实施例的流程示意图。
图3是本发明实施例的SEN12MS数据集下相同场景NIR-RGB模态的多种方法的平均匹配精确率对比图。
图4是本发明实施例的SEN12MS数据集下相同场景SAR-SWIR模态的多种方法的平均匹配精确率对比图。
图5是本发明实施例的SEN12MS数据集下相同场景SAR-NIR模态的多种方法的平均匹配精确率对比图。
图6是本发明实施例的SEN12MS数据集下相同场景NIR-SWIR模态的多种方法的平均匹配精确率对比图。
图7是本发明实施例的NYU-Depth V2数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图8是本发明实施例的Optical-SAR数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图9是本发明实施例的RGB-NIR Scene数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图10是本发明实施例的WHU-OPT-SAR数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图11为本发明实施例中一种图像特征匹配装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
目前,在相关技术领域中,不同模态图像由于其在成像机理、几何特征、辐射特征等方面都有较大的区别。不同模态图像的特征匹配能力与精准度并不理想。
为了解决这一问题,提出本发明的图像特征匹配方法的各个实施例。本发明提供的图像特征匹配方法通过匹配不同模态样本图像中关键图像块的特征,根据匹配概率,调整策略梯度网络,迭代训练直至收敛,获得对不同模态图像进行图像特征匹配的模型,解决了目前多模态图像的特征匹配能力与精准度不高的技术问题。
参照图1,图1为本发明实施例方案涉及的图像特征匹配设备的结构示意图。
设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。设备可能被称为用户终端、便携式终端、台式终端等。
通常,设备包括:至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的图像特征匹配程序,所述图像特征匹配程序配置为实现如前所述的图像特征匹配方法的步骤。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关图像特征匹配操作,使得图像特征匹配模型可以自主训练学习,提高效率和准确度。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的图像特征匹配方法。
在一些实施例中,终端还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。通信接口303通过外围设备用于接收用户上传的多个移动终端的移动轨迹以及其他数据。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信,从而可获取多个移动终端的移动轨迹以及其他数据。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near FieldCommunication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,电子设备的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图1中示出的结构并不构成对图像特征匹配设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例提供了一种图像特征匹配方法,参照图2,图2为本发明图像特征匹配方法实施例的流程示意图。
本实施例中,所述图像特征匹配方法包括以下步骤:
步骤S100,获取第一模态样本图像和第二模态样本图像的关键点,匹配所述关键点在第一模态样本图像和第二模态样本图像中对应的关键图像块。
具体而言,在获取关键点时,将第一模态样本图像和第二模态样本图像转化为灰度图像,利用高斯差分算法对所述灰度图像进行处理,获得每个像素点的DOG值;基于所述DOG值,获取第一模态样本图像和第二模态样本图像的关键点;其中,所述关键点的DOG值为其所有相邻像素点的最大值或最小值。
需要说明的是,高斯差分算法的表达式,具体为:
Figure 306073DEST_PATH_IMAGE019
其中,
Figure 463995DEST_PATH_IMAGE020
Figure 687035DEST_PATH_IMAGE021
分别表示两幅图像的高斯滤波,
Figure 47609DEST_PATH_IMAGE022
Figure 356100DEST_PATH_IMAGE023
是不同的高斯平滑参 数,(x,y)是图像上的点的坐标。在初步的关键点检测中,如果像素的DOG值与相邻像素点相 比,是最大值或最小值,则可以将其视为关键点。在具体的图像处理中,就是将两幅不同高 斯平滑参数下的高斯滤波结果相减。
在此基础上,匹配上述关键点在不同模态样本图像中的关键图像块时,可通过去关键点周围的区域,重构为预设尺寸大小像素的图像块,重构后的图像块用于深度网络的训练数据,以解决多模态图像的尺寸差异问题。本实施例重构为64×64像素的关键图像块。
步骤S200,提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配。
具体而言,在提取关键图像块的特征时,基于初始的策略梯度网络,提取所述关键 图像块的特征;其中,所述初始的策略梯度网络包括UNet网络和Transformer网络,所述特 征包括第一模态样本图像
Figure 663584DEST_PATH_IMAGE001
对应的输出特征
Figure 212902DEST_PATH_IMAGE002
和第二模态样本图像
Figure 947640DEST_PATH_IMAGE003
对应的输出特征
Figure 9006DEST_PATH_IMAGE004
需要说明的是,在匹配第一模态样本图像和第二模态样本图像的特征时,其特征匹配概率的表达式,具体为:
Figure 182498DEST_PATH_IMAGE005
其中,
Figure 130862DEST_PATH_IMAGE006
为匹配概率,i和j均为单位向量,S为对齐横向和纵向每个维度的 每个位置运行一次Softmax算法。
本实施例中,使用UNet网络和Transformer网络对不同模态的图像块进行特征提取。
对于UNet网络,接受大小为64×64×3的数据,通过多个卷积层逐步下采样,依次转变成32×32×16、16×16×64和8×8×256的数据。随后通过反卷积进行上采样,并且在上采样的阶段中进行通道连接,依次生成16×16×128和32×32×50的数据。最终将32×32×50的数据输出,传递到后续的Transformer中。本实施例所设计的带有UNet结构的卷积神经网络能够更好地融合低分辨率语义信息和高分辨率空间信息的特征图。
对于Transformer网络,使用了传统Transformer中的自注意力机制。当模型在处理每个token时,自注意力机制可以帮助模型查看输入序列中的其他位置,寻找相关的线索,来达到更好的编码效果。它的作用就是将对其他相关token的 “注意力”融入当前正在处理的token中。
第一步,为编码器的每个输入单词创建三个向量,即 Query vector,Key vector 和Value vector。这些向量通过embedding和三个矩阵相乘得到,将输入的token
Figure 551348DEST_PATH_IMAGE024
乘以权 重
Figure 585163DEST_PATH_IMAGE025
得到Query向量
Figure 686980DEST_PATH_IMAGE026
,同理得到Key向量
Figure 21010DEST_PATH_IMAGE027
和Value向量
Figure 425446DEST_PATH_IMAGE028
。这三个向量对 attention的计算有很重要的作用。
第二步,是计算一个得分。假设要计算一张图片中第一个像素的自注意力机制,就 需要根据这个像素,对输入数据的每个像素进行评分,这个分数决定了对其他像素放置多 少关注度。分数的计算方法是,例如正在考虑这个像素,就用它的Query向量
Figure 933176DEST_PATH_IMAGE029
去乘以每个 位置的Key向量
Figure 651733DEST_PATH_IMAGE030
第三步,是将得分加以处理然后传递给 Softmax,Softmax 就将分数标准化,这样加起来保证为1。这个Softmax分数决定了每个像素在该位置注意力表达的程度。很明显,这个位置上的像素将具有最高的 Softmax 分数,但有时候注意与当前像素相关的另一个像素是有用的。
第四步,用这个得分乘以每个value向量,目的是让所关注像素的值保持不变。
第五步,加权求和这些value向量。
通过Transformer后,本实施例定义查询图(即第一模态样本图像)
Figure 230482DEST_PATH_IMAGE031
的输出特征 定义为
Figure 461612DEST_PATH_IMAGE032
, 参考图(即第二模态样本图像)
Figure 470019DEST_PATH_IMAGE033
的输出特征定义为
Figure 710377DEST_PATH_IMAGE034
步骤S300,根据所述匹配的匹配概率,调整策略梯度网络,并返回执行提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配步骤,直至训练收敛,获得图像特征匹配模型。
具体而言,在获得第一模态样本图像和第二模态样本图像的特征的匹配概率后,可根据该匹配概率,调整策略梯度网络。
本实施例中,调整策略梯度网络,具体包括:
(1)当所述匹配概率大于阈值μ,且对应的第一模态样本图像和第二模态样本图像为正例,给予奖励α,α为正值;
(2)当所述匹配概率小于阈值μ,且对应的第一模态样本图像和第二模态样本图像为负例,给予奖励β,β为0;
(3)当所述匹配概率与阈值μ、对应的第一模态样本图像和第二模态样本图像满足其他情况时,给予奖励γ。
需要说明的是,γ的表达式,具体为:
Figure 815736DEST_PATH_IMAGE007
其中,γ为奖励值,epoch为迭代次数,n为奖励值设置为0的周期数。
容易理解的,在强化学习中,状态(State)是输入图像,参与者(Actor)是设计的策略网络(即前面介绍的UNet网络和Transformer网络),动作(Action)包含特征映射和匹配概率,环境(Environment)实现特征匹配和授予奖励(Reward)。因为环境授予奖励的方式是离散的,梯度并不能直接反向传播,普通的损失函数并不适用。
因此,本实施例设计了能够处理离散问题的策略梯度算法。在策略梯度中,这些奖励不是直接传播给参与者,而是建立奖励与(动作|状态)序列之间的关系。本实施例设计的策略梯度算法可以通过调整不同的序列获得不同的奖励,其目标是使得奖励的期望最大化。
本实施例中,使用强化学习对模型进行粗匹配。首先,将前面提取的
Figure 234079DEST_PATH_IMAGE035
Figure 247559DEST_PATH_IMAGE036
进 行匹配,得到一组相应的匹配
Figure 980022DEST_PATH_IMAGE037
。定义
Figure 126839DEST_PATH_IMAGE038
是图像
Figure 716083DEST_PATH_IMAGE039
Figure 948350DEST_PATH_IMAGE033
中特征的匹配 分布,其条件是特征
Figure 570656DEST_PATH_IMAGE035
,
Figure 322711DEST_PATH_IMAGE036
和匹配参数
Figure 332125DEST_PATH_IMAGE037
。计算其分布及其导数需要对这两个概率对 所有可能的
Figure 802420DEST_PATH_IMAGE035
Figure 191201DEST_PATH_IMAGE036
的乘积进行积分,并且匹配问题中存在一定的离散性,所以直接对 其积分是非常困难的。本实施例采用随机抽样和梯度上升的方法估计期望报酬
Figure 125659DEST_PATH_IMAGE040
,以使它的值最大化。
在策略网络中,本实施例使用dual-softmax算法构造置信度矩阵。利用dual-softmax得到两种模态相对应的特征图进行归一化处理。在两个维度上应用Softmax,得到最近邻匹配的概率。
奖励
Figure 56706DEST_PATH_IMAGE041
可以分解为多对匹配的和,即
Figure 263565DEST_PATH_IMAGE042
, 因此,奖励R的梯度
Figure 203839DEST_PATH_IMAGE043
也就可以通过特征
Figure 117437DEST_PATH_IMAGE035
,
Figure 219386DEST_PATH_IMAGE036
和其匹配参数
Figure 913541DEST_PATH_IMAGE037
来计算。 奖励R的梯度估计的总方差并不依赖于匹配步骤,这意味着本实施例可以以离散的方式分 配奖励,甚至奖励的值也可以是可变的。
在这次强化学习中,为了使模型能够更好地区分好的和坏的匹配效果,本实施例设计了一个奖励机制。如果标签样本为正例,且dual-softmax得到的匹配概率大于阈值μ,则认为该匹配正确,并给予奖励(α)。如果标签样本中的样本为负例,且匹配概率小于阈值μ,则认为匹配合理,并给予奖励(β)。在其他情况下,认为匹配不正确,并给予奖励(γ)。一般来说,α为正值,β为0,γ为负值。
事实上,如果直接将γ设为负值,随机初始化的网络往往会产生非常差的匹配,即平均匹配质量逐渐一开始就都是负值,通过多次迭代后,网络就基本停止采样了,导致达到局部最大奖励0。为了防止这种情况,本实施例将前n个周期的γ值设置为0,然后开始从0开始线性减小。
Figure 391927DEST_PATH_IMAGE038
是一个封闭公式。
Figure 35398DEST_PATH_IMAGE044
Figure 837742DEST_PATH_IMAGE045
可以从它 们各自的分布中采样得到。策略梯度总公式如下:
Figure 504347DEST_PATH_IMAGE046
Figure 238954DEST_PATH_IMAGE047
+
Figure 363030DEST_PATH_IMAGE048
E表示期望,
Figure 400256DEST_PATH_IMAGE049
表示梯度,
Figure 209949DEST_PATH_IMAGE050
表示(动作|状态)序列,即本实施例中的(查询图 和参考图的匹配|查询图
Figure 30138DEST_PATH_IMAGE031
的特征,参考图
Figure 306923DEST_PATH_IMAGE033
的特征)。
在该策略梯度算法中,梯度方差的唯一来源是
Figure 452733DEST_PATH_IMAGE035
Figure 812039DEST_PATH_IMAGE034
的提取,即通过环境(本 实施例使用dual-softmax算法)判断匹配质量,以期望的方式反馈给(动作|状态)序列,从 而引导特征
Figure 435919DEST_PATH_IMAGE035
Figure 829860DEST_PATH_IMAGE034
的提取。公式中,除了特征所获得的匹配质量外,没有对特征提取网 络进行监督。策略梯度网络可以根据匹配质量获得适当的奖励。奖励不会直接传递到策略 网络中,而是传递到(行动|状态)序列中,因此奖励的期望可以通过梯度上升最大化。
步骤S400,在接收到第一模态匹配图像和第二模态匹配图像时,利用所述图像特征匹配模型对第一模态匹配图像和第二模态匹配图像进行图像特征匹配。
具体而言,在获得训练收敛的图像特征匹配模型后,即可在接收到待匹配的第一模态匹配图像和第二模态匹配图像时,利用该图像特征匹配模型对其进行图像特征匹配。
其中,图像特征匹配模型由强化学习的方式,对深度学习模型进行强化学习训练,通过反复迭代使得奖励(匹配质量)的期望最大化,进而训练出有效的深度特征检测器。在使用本模型实施特征匹配时,只要将待匹配的数据集输入训练好的深度特征检测器中,即可全自动地进行特征匹配。
在本实施例中,通过匹配不同模态样本图像中关键图像块的特征,根据匹配概率,调整策略梯度网络,迭代训练直至收敛,获得对不同模态图像进行图像特征匹配的模型,解决了目前多模态图像的特征匹配能力与精准度不高的技术问题。
为了更清楚的表达本申请具有的图像特征匹配能力和精准度上的提升,下面提供本申请在其他客观环境相同的情况下,与其他多种方法进行对比实验,从而验证本申请设计的方法的匹配效果。
本申请使用的评估指标是平均精度估计(MMA)。对于每个图像对,平均精度估计(MMA)使用只接受相互最近邻的算法来匹配每种方法提取的特征,如果同质性估计的重投影误差低于给定的匹配阈值,则认为匹配是正确的。MMA得分是考虑多个像素错误阈值的图像对中正确匹配的平均百分比,并显示所有图像对中每个阈值的平均得分。
本申请图像特征匹配方法对比的方法有HardNet、MatchosNet、TFeat和MatchNet。这些方法为现有技术找那个本身都有非常好的特征匹配能力,用这些方法做对比方法,可以更加客观地证明本申请图像特征匹配的能力和效果。
1、验证在相同场景的不同模态下,不同方法的匹配效果。
如图3~图6所示,在SEN12MS数据集的多模态图像上测试不同的方法进行MMA估计。MMA图的横坐标是像素阈值,纵坐标是平均匹配准确率,计算不同方法在像素值从1到10的平均匹配精度。MMA曲线越靠上、靠左,说明该方法的特征匹配性能越好。从图3~图6可以看出,本申请在SEN12MS数据集不同模态下的MMA曲线都是最好的。
2、验证在不同场景的不同模态下,不同方法的匹配效果。
如图7~图10所示,在new-depth V2、optics-sar、RGB-NIR和WHU-OPT-SAR数据集的多模态图像上测试了不同的方法来进行平均精度估计。从图7~图10可以看出,在不同的多模态数据集上,本申请的MMA指数均优于其他方法,证明本申请在处理多模态数据时具有良好的准确性和泛化性。
参照图11,图11为本发明图像特征匹配装置实施例的结构框图。
如图11所示,本发明实施例提出的图像特征匹配装置包括:
匹配模块10,用于获取第一模态样本图像和第二模态样本图像的关键点,匹配所述关键点在第一模态样本图像和第二模态样本图像中对应的关键图像块;
提取模块20,用于提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配;
迭代模块30,用于根据所述匹配的匹配概率,调整策略梯度网络,并返回执行提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配步骤,直至训练收敛,获得图像特征匹配模型;
匹配模块40,用于在接收到第一模态匹配图像和第二模态匹配图像时,利用所述图像特征匹配模型对第一模态匹配图像和第二模态匹配图像进行图像特征匹配。
本发明图像特征匹配装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有图像特征匹配程序,所述图像特征匹配程序被处理器执行时实现如上文所述的图像特征匹配方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

Claims (10)

1.一种图像特征匹配方法,其特征在于,所述方法包括以下步骤:
获取第一模态样本图像和第二模态样本图像的关键点,匹配所述关键点在第一模态样本图像和第二模态样本图像中对应的关键图像块;
提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配;
根据所述匹配的匹配概率,调整策略梯度网络,并返回执行提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配步骤,直至训练收敛,获得图像特征匹配模型;
在接收到第一模态匹配图像和第二模态匹配图像时,利用所述图像特征匹配模型对第一模态匹配图像和第二模态匹配图像进行图像特征匹配。
2.如权利要求1所述的图像特征匹配方法,其特征在于,所述获取第一模态样本图像和第二模态样本图像的关键点步骤,具体为:
将第一模态样本图像和第二模态样本图像转化为灰度图像,利用高斯差分算法对所述灰度图像进行处理,获得每个像素点的DOG值;
基于所述DOG值,获取第一模态样本图像和第二模态样本图像的关键点;其中,所述关键点的DOG值为其所有相邻像素点的最大值或最小值。
3.如权利要求1所述的图像特征匹配方法,其特征在于,所述提取所述关键图像块的特 征步骤,具体为:基于初始的策略梯度网络,提取所述关键图像块的特征;其中,所述初始的 策略梯度网络包括UNet网络和Transformer网络,所述特征包括第一模态样本图像
Figure 949843DEST_PATH_IMAGE001
对应 的输出特征
Figure 924621DEST_PATH_IMAGE002
和第二模态样本图像
Figure 702084DEST_PATH_IMAGE003
对应的输出特征
Figure 369695DEST_PATH_IMAGE004
4.如权利要求3所述的图像特征匹配方法,其特征在于,第一模态样本图像和第二模态样本图像对应的特征的匹配概率采用dual-softmax算法获得,所述匹配概率的表达式,具体为:
Figure 458874DEST_PATH_IMAGE005
其中,
Figure 988075DEST_PATH_IMAGE006
为匹配概率,i和j均为单位向量,S为对齐横向和纵向每个维度的每个位 置运行一次Softmax算法。
5.如权利要求4所述的图像特征匹配方法,其特征在于,所述根据所述匹配的匹配概率,调整策略梯度网络步骤,具体包括:
当所述匹配概率大于阈值μ,且对应的第一模态样本图像和第二模态样本图像为正例,给予奖励α,α为正值;
当所述匹配概率小于阈值μ,且对应的第一模态样本图像和第二模态样本图像为负例,给予奖励β,β为0;
当所述匹配概率与阈值μ、对应的第一模态样本图像和第二模态样本图像满足其他情况时,给予奖励γ。
6.如权利要求5所述的图像特征匹配方法,其特征在于,所述γ的表达式,具体为:
Figure 872242DEST_PATH_IMAGE007
其中,γ为奖励值,epoch为迭代次数,n为奖励值设置为0的周期数。
7.如权利要求4所述的图像特征匹配方法,其特征在于,所述策略梯度网络中策略梯度的表达式,具体为:
Figure 195907DEST_PATH_IMAGE008
Figure 162595DEST_PATH_IMAGE009
+
Figure 495487DEST_PATH_IMAGE010
其中,E为期望,
Figure 621444DEST_PATH_IMAGE011
为梯度,
Figure 381590DEST_PATH_IMAGE012
为动作|状态序列,所述动作为:第一模态样本图像
Figure 445361DEST_PATH_IMAGE013
和第二模态样本图像
Figure 709507DEST_PATH_IMAGE014
的匹配,所述状态为:输出特征
Figure 175124DEST_PATH_IMAGE015
和输出特征
Figure 355438DEST_PATH_IMAGE016
Figure 516292DEST_PATH_IMAGE017
为输出特征
Figure 705834DEST_PATH_IMAGE015
与输出特征
Figure 901323DEST_PATH_IMAGE016
的匹配参数,
Figure 862326DEST_PATH_IMAGE018
为输出特征
Figure 25323DEST_PATH_IMAGE015
与输出特征
Figure 238130DEST_PATH_IMAGE016
匹配对应的奖励。
8.一种图像特征匹配装置,其特征在于,所述图像特征匹配装置包括:
匹配模块,用于获取第一模态样本图像和第二模态样本图像的关键点,匹配所述关键点在第一模态样本图像和第二模态样本图像中对应的关键图像块;
提取模块,用于提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配;
迭代模块,用于根据所述匹配的匹配概率,调整策略梯度网络,并返回执行提取所述关键图像块的特征,对所述第一模态样本图像和所述第二模态样本图像对应的特征进行匹配步骤,直至训练收敛,获得图像特征匹配模型;
匹配模块,用于在接收到第一模态匹配图像和第二模态匹配图像时,利用所述图像特征匹配模型对第一模态匹配图像和第二模态匹配图像进行图像特征匹配。
9.一种图像特征匹配设备,其特征在于,所述图像特征匹配设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像特征匹配程序,所述图像特征匹配程序被所述处理器执行时实现如权利要求1至7中任一项所述的图像特征匹配方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有图像特征匹配程序,所述图像特征匹配程序被处理器执行时实现如权利要求1至7中任一项所述的图像特征匹配方法的步骤。
CN202211587766.5A 2022-12-12 2022-12-12 图像特征匹配方法、装置、设备及存储介质 Active CN115601576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211587766.5A CN115601576B (zh) 2022-12-12 2022-12-12 图像特征匹配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211587766.5A CN115601576B (zh) 2022-12-12 2022-12-12 图像特征匹配方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115601576A true CN115601576A (zh) 2023-01-13
CN115601576B CN115601576B (zh) 2023-04-07

Family

ID=84852625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211587766.5A Active CN115601576B (zh) 2022-12-12 2022-12-12 图像特征匹配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115601576B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100310177A1 (en) * 2009-05-06 2010-12-09 University Of New Brunswick Method of interest point matching for images
US20130272548A1 (en) * 2012-04-13 2013-10-17 Qualcomm Incorporated Object recognition using multi-modal matching scheme
CN111339343A (zh) * 2020-02-12 2020-06-26 腾讯科技(深圳)有限公司 图像检索方法、装置、存储介质及设备
CN111461196A (zh) * 2020-03-27 2020-07-28 上海大学 基于结构特征的快速鲁棒图像识别跟踪方法和装置
US20210089890A1 (en) * 2019-09-24 2021-03-25 Toyota Research Institute, Inc. Systems and methods for detecting and matching keypoints between different views of a scene
CN113221923A (zh) * 2021-05-31 2021-08-06 西安电子科技大学 一种用于多模态图像块匹配的特征分解方法及系统
CN113822916A (zh) * 2021-08-17 2021-12-21 北京大学 图像匹配方法、装置、设备及可读存储介质
CN114511012A (zh) * 2022-01-20 2022-05-17 云南览易网络科技有限责任公司 基于特征匹配和位置匹配的sar图像与光学图像匹配方法
CN114596464A (zh) * 2022-03-03 2022-06-07 上海鱼尔网络科技有限公司 多特征交互的无监督目标检测方法、系统、电子设备和可读存储介质
CN114926892A (zh) * 2022-06-14 2022-08-19 中国人民大学 一种基于深度学习的眼底图像匹配方法、系统和可读介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100310177A1 (en) * 2009-05-06 2010-12-09 University Of New Brunswick Method of interest point matching for images
US20130272548A1 (en) * 2012-04-13 2013-10-17 Qualcomm Incorporated Object recognition using multi-modal matching scheme
US20210089890A1 (en) * 2019-09-24 2021-03-25 Toyota Research Institute, Inc. Systems and methods for detecting and matching keypoints between different views of a scene
CN111339343A (zh) * 2020-02-12 2020-06-26 腾讯科技(深圳)有限公司 图像检索方法、装置、存储介质及设备
CN111461196A (zh) * 2020-03-27 2020-07-28 上海大学 基于结构特征的快速鲁棒图像识别跟踪方法和装置
CN113221923A (zh) * 2021-05-31 2021-08-06 西安电子科技大学 一种用于多模态图像块匹配的特征分解方法及系统
CN113822916A (zh) * 2021-08-17 2021-12-21 北京大学 图像匹配方法、装置、设备及可读存储介质
CN114511012A (zh) * 2022-01-20 2022-05-17 云南览易网络科技有限责任公司 基于特征匹配和位置匹配的sar图像与光学图像匹配方法
CN114596464A (zh) * 2022-03-03 2022-06-07 上海鱼尔网络科技有限公司 多特征交互的无监督目标检测方法、系统、电子设备和可读存储介质
CN114926892A (zh) * 2022-06-14 2022-08-19 中国人民大学 一种基于深度学习的眼底图像匹配方法、系统和可读介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SAADAT S,ET AL: "Fast and robust multi-modal image registration for 3D knee kinematics" *
吕存养等: "基于迭代匹配的橡胶栓图像自适应旋转研究" *
眭海刚等: "多模态遥感图像匹配方法综述" *

Also Published As

Publication number Publication date
CN115601576B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US20200387698A1 (en) Hand key point recognition model training method, hand key point recognition method and device
WO2021114832A1 (zh) 样本图像数据增强方法、装置、电子设备及存储介质
Zhao et al. Dd-cyclegan: Unpaired image dehazing via double-discriminator cycle-consistent generative adversarial network
US20200276703A1 (en) Optimizing policy controllers for robotic agents using image embeddings
CN111091166B (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
Li et al. Image super-resolution with parametric sparse model learning
CN111680123B (zh) 对话模型的训练方法、装置、计算机设备及存储介质
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
CN113470029B (zh) 训练方法及装置、图像处理方法、电子设备和存储介质
CN113256529B (zh) 图像处理方法、装置、计算机设备及存储介质
CN112419326B (zh) 图像分割数据处理方法、装置、设备及存储介质
WO2023202285A1 (zh) 图像处理方法、装置、计算机设备及存储介质
CN111753498A (zh) 文本处理方法、装置、设备及存储介质
CN108876716A (zh) 超分辨率重建方法及装置
Yang et al. Low‐light image enhancement based on Retinex decomposition and adaptive gamma correction
CN113902636A (zh) 图像去模糊方法及装置、计算机可读介质和电子设备
CN112115900B (zh) 图像处理方法、装置、设备及存储介质
CN116580211B (zh) 关键点检测方法、装置、计算机设备及存储介质
CN115601576B (zh) 图像特征匹配方法、装置、设备及存储介质
CN115035313B (zh) 黑颈鹤识别方法、装置、设备及存储介质
CN112257561B (zh) 一种人脸活体检测方法、装置、机器可读介质及设备
EP4293623A1 (en) Image depth prediction method and electronic device
CN114610911A (zh) 多模态知识本征表示学习方法、装置、设备及存储介质
Han et al. Blind image quality assessment with channel attention based deep residual network and extended LargeVis dimensionality reduction
CN113160386A (zh) 图像获得方法、装置、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant