CN117853537A - 基于尺度学习的图像配准方法、装置、计算机设备和介质 - Google Patents

基于尺度学习的图像配准方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN117853537A
CN117853537A CN202410037637.1A CN202410037637A CN117853537A CN 117853537 A CN117853537 A CN 117853537A CN 202410037637 A CN202410037637 A CN 202410037637A CN 117853537 A CN117853537 A CN 117853537A
Authority
CN
China
Prior art keywords
layer
color block
network layer
image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410037637.1A
Other languages
English (en)
Inventor
李少朋
武健
马峰
赵久奋
李冰
李亚雄
王顺宏
杨奇松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rocket Force University of Engineering of PLA
Original Assignee
Rocket Force University of Engineering of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rocket Force University of Engineering of PLA filed Critical Rocket Force University of Engineering of PLA
Priority to CN202410037637.1A priority Critical patent/CN117853537A/zh
Publication of CN117853537A publication Critical patent/CN117853537A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施例提供一种基于尺度学习的图像配准方法、装置、计算机设备和介质,包括:确定训练样本集;构建目标网络结构;基于训练样本集对目标网络结构进行训练,得到目标学习模型,目标学习模型用于根据输入的两个色块,输出两个色块之间的相似度量值;将待匹配图像的第三色块与匹配图像的第四色块输入目标学习模型中,基于目标学习模型的输出得到第三色块和第四色块之间的相似度量值;基于第三色块和第四色块之间的相似度量值,配准待匹配图像和匹配图像。从而,提升图像配准效率。

Description

基于尺度学习的图像配准方法、装置、计算机设备和介质
技术领域
本公开的实施例涉及图像处理技术领域,具体地,涉及适用于一种基于尺度学习的图像配准方法、装置、计算机设备和介质。
背景技术
基于图像块(patch)的图像配准是视觉几何计算中的一个挑战性问题,现有图像配准时,主要通过依据如SAD(Sum of Absolute Differences,绝对值差和)和SSD(Sum ofSquared Differences,平方差之和)等方式实现两个图像之间的配准结果。
然而,现有配准技术,配准效率不高。
发明内容
本文中描述的实施例提供了一种基于尺度学习的图像配准方法、装置、计算机设备和介质,克服了上述问题。
第一方面,根据本公开的内容,提供了一种基于尺度学习的图像配准方法,包括:
确定训练样本集,所述训练样本集中包括目标图像的第一色块、所述目标图像对应的参考图像的第二色块、以及所述第一色块与所述第二色块的标签值,所述第一色块在所述目标图像中的位置与所述第二色块在所述参考图像中的位置相对应;
构建目标网络结构,所述目标网络结构的输入为所述第一色块和所述第二色块,输出为所述第一色块和所述第二色块的相似度量值;
基于所述训练样本集对所述目标网络结构进行训练,得到目标学习模型,所述目标学习模型用于根据输入的两个色块,输出两个所述色块之间的相似度量值;
将待匹配图像的第三色块与匹配图像的第四色块输入所述目标学习模型中,基于所述目标学习模型的输出得到所述第三色块和所述第四色块之间的相似度量值,所述第三色块为所述待匹配图像中的任一色块,所述第四色块为所述匹配图像中与所述第三色块在所述待匹配图像中的位置相对应的色块;
基于所述第三色块和所述第四色块之间的相似度量值,配准所述待匹配图像和所述匹配图像。
第二方面,根据本公开的内容,提供了一种基于尺度学习的图像配准装置,包括:
确定模块,用于确定训练样本集,所述训练样本集中包括目标图像的第一色块、所述目标图像对应的参考图像的第二色块、以及所述第一色块与所述第二色块的标签值,所述第一色块在所述目标图像中的位置与所述第二色块在所述参考图像中的位置相对应;
构建模块,用于构建目标网络结构,所述目标网络结构的输入为所述第一色块和所述第二色块,输出为所述第一色块和所述第二色块的相似度量值;
训练模块,用于基于所述训练样本集对所述目标网络结构进行训练,得到目标学习模型,所述目标学习模型用于根据输入的两个色块,输出两个所述色块之间的相似度量值;
确定模块,还用于将待匹配图像的第三色块与匹配图像的第四色块输入所述目标学习模型中,基于所述目标学习模型的输出得到所述第三色块和所述第四色块之间的相似度量值,所述第三色块为所述待匹配图像中的任一色块,所述第四色块为所述匹配图像中与所述第三色块在所述待匹配图像中的位置相对应的色块;
配准模块,用于基于所述第三色块和所述第四色块之间的相似度量值,配准所述待匹配图像和所述匹配图像。
第三方面,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序时实现如以上任意一个实施例中基于尺度学习的图像配准方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如以上任意一个实施例中基于尺度学习的图像配准方法的步骤。
本申请实施例提供的基于尺度学习的图像配准方法,确定训练样本集,训练样本集中包括目标图像的第一色块、目标图像对应的参考图像的第二色块、以及第一色块与第二色块的标签值,第一色块在目标图像中的位置与第二色块在参考图像中的位置相对应;构建目标网络结构,目标网络结构的输入为第一色块和第二色块,输出为第一色块和第二色块的相似度量值;基于训练样本集对目标网络结构进行训练,得到目标学习模型,目标学习模型用于根据输入的两个色块,输出两个色块之间的相似度量值;将待匹配图像的第三色块与匹配图像的第四色块输入目标学习模型中,基于目标学习模型的输出得到第三色块和第四色块之间的相似度量值,第三色块为待匹配图像中的任一色块,第四色块为匹配图像中与第三色块在待匹配图像中的位置相对应的色块;基于第三色块和第四色块之间的相似度量值,配准待匹配图像和匹配图像。如此,通过相似性度量训练目标学习模型,有效评估图像配准,提升图像配准效率。
上述说明仅是本申请实施例技术方案的概述,为了能够更清楚了解本申请实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
图1是本公开实施例提供的一种基于尺度学习的图像配准方法的流程示意图。
图2是本公开实施例提供的一种回归网络结构的示意图。
图3是本公开实施例提供的一种分类网络结构的示意图。
图4是本公开实施例提供的一种排序网络结构的示意图。
图5是本公开实施例提供的一种基于尺度学习的图像配准装置的结构示意图。
图6是本公开实施例提供的一种计算机设备的结构示意图。
需要注意的是,附图中的元素是示意性的,没有按比例绘制。
具体实施方式
为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。如在此所使用的,将两个或更多部分“连接”或“耦接”到一起的陈述应指这些部分直接结合到一起或通过一个或多个中间部件结合。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语“实施例”并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:存在A,同时存在A和B,存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。
在本申请的描述中,除非另有说明,“多个”的含义是指两个以上(包括两个),同理,“多组”指的是两组以上(包括两组)。
视觉几何工作主要包括视觉里程计宽基线立体成像、视觉三维重建和运动恢复结构。图像配准是求解刚性空间变换的过程,该变换将一个图像中的点或斑块准确地映射到另一图像中的对应点或斑块,这在视觉几何中得到了广泛使用。
图像配准算法可以分为基于特征的算法和基于图像光度的算法。基于特征的方法使用不同的特征(例如点,线和轮廓)来建立参考图像和目标图像之间的对应关系。这些独特特征的提取和相应建立分别通过工程特征检测和描述符匹配方法完成,其中SIFT(Scale-invariant feature transform,尺度不变特征变换),SURF(Speeded-Up RobustFeatures,一种SIFT的改进算法)和ORB(Oriented FASTand Rotated BRIEF,一种快速特征点提取和描述的算法)是工程特征设计很好例子。知道了许多特征之间的对应关系之后,基于特征的方法可以通过最大程度地减少对准误差来优化目标图像和参考图像之间的相对姿态。因此,基于特征的方法需要两步操作来提取特征并匹配描述符。这个过程是繁琐且耗时的。相比之下,基于光度的方法则通过相似性度量,例如,平方差之和(SSD)、绝对差之和(SAD)、最大绝对差(MAD)来比较图像中斑块的光度。斑块之间的对应关系是从具有最佳位姿的投影中获得的。基于强度的方法通过最小化从参考图像和目标图像中提取的相应色块的光度误差来优化相对姿态。光度误差由斑块强度的相似性度量定义的。但是,使用诸如SSD的相似性度量来优化相对姿态取决于以下相关性:随着相似性得分的增加,相对姿态逐渐接近真实值。但是,实时上对于SSD,这种正相关性很弱的。由于大数据中的正相关性较弱,因此只有当大量的斑块参与计算时,姿态估计误差才会平滑收敛。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图1是本公开实施例提供的一种基于尺度学习的图像配准方法的流程示意图,如图1所示,基于尺度学习的图像配准方法的具体过程包括:
S110、确定训练样本集。
其中,训练样本集中包括目标图像的第一色块、目标图像对应的参考图像的第二色块、以及第一色块与第二色块的标签值,第一色块在目标图像中的位置与第二色块在参考图像中的位置相对应。
目标图像和参考图像可为处于不同拍摄视角的图像,或者,目标图像和参考图像可为同一拍摄视角不同拍摄角度的图像。
第一色块可为目标图像中的任一色块,也就是,训练样本集中可包括目标图像中的全部色块,参考图像中与目标图像中全部色块处于位置相对应的所有色块。
S120、构建目标网络结构。
其中,目标网络结构的输入为第一色块和第二色块,输出为第一色块和第二色块之间的相似度量值。
S130、基于训练样本集对目标网络结构进行训练,得到目标学习模型。
其中,目标学习模型可用于根据输入的两个色块,输出两个色块之间的相似度量值。
一些实施例中,基于训练样本集对目标网络结构进行训练,得到目标学习模型,包括:
依次将训练样本集中的对应色块组输入目标网络结构中,得到第一色块和第二色块之间的相似度量值,对应色块组包括第一色块和第二色块;在相似度量值与标签值之间的差值小于预设损失值时,确定目标网络结构训练完成,得到目标学习模型。
其中,训练样本集中包括多个对应色块组,对应色块组也即目标图像中的一个色块与参考图像中的一个对应色块,如目标图像中的第一色块和参考图像中的第二色块。
从而,可在模型训练阶段,通过相似度量值与标签值之间的差值与预设损失值之间的大小关系,作为模型训练的收敛条件,便于有效识别模型训练程度,完成目标学习模型的高效训练。
S140、将待匹配图像的第三色块与匹配图像的第四色块输入目标学习模型中,基于目标学习模型的输出得到第三色块和第四色块之间的相似度量值。
其中,第三色块为待匹配图像中的任一色块,第四色块为匹配图像中与第三色块在待匹配图像中的位置相对应的色块。
待匹配图像和匹配图像可为处于不同拍摄视角的图像,或者,待匹配图像和匹配图像可为同一拍摄视角不同拍摄角度的图像。
第三色块可为待匹配图像中的任一色块,也就是,将待匹配图像中的全部色块与匹配图像中相对应的所有色块依次输入目标学习模型中,得到两个色块之间的相似度量值。
S150、基于第三色块和第四色块之间的相似度量值,配准待匹配图像和匹配图像。
其中,图像配准就是要计算图像间变换位姿,该图像变换的位姿可通过对根据提取的色块的强度值计算出的度量的优化实现的。如下公式(1)。
(1)
式(1)中,T为匹配图像,T中的第i个色块,/>为待匹配图像,X为匹配图像中色块与待匹配图像中色块之间的相似度量值,即第三色块和第四色块之间的相似度量值。
X通常可由SSD和SAD描述。如下公式(2)。
(2)
式(2)中,是相似性度量,/>u处的像素深度,π是由相机固有内参确定的投影方程,/>和/>分别为两个色块。
从参考图像和目标图像中通过深度学习输出一种相似性度量,该度量存在的意义是位姿优化误差越大,该相似性度量的度量值越高,二者(参考图像和目标图像)之间呈正相关关系。
本实施例中,通过确定训练样本集,训练样本集中包括目标图像的第一色块、目标图像对应的参考图像的第二色块、以及第一色块与第二色块的标签值,第一色块在目标图像中的位置与第二色块在参考图像中的位置相对应;构建目标网络结构,目标网络结构的输入为第一色块和第二色块,输出为第一色块和第二色块的相似度量值;基于训练样本集对目标网络结构进行训练,得到目标学习模型,目标学习模型用于根据输入的两个色块,输出两个色块之间的相似度量值;将待匹配图像的第三色块与匹配图像的第四色块输入目标学习模型中,基于目标学习模型的输出得到第三色块和第四色块之间的相似度量值,第三色块为待匹配图像中的任一色块,第四色块为匹配图像中与第三色块在待匹配图像中的位置相对应的色块;基于第三色块和第四色块之间的相似度量值,配准待匹配图像和匹配图像。如此,通过相似性度量训练目标学习模型,有效评估图像配准,提升图像配准效率。
一些实施例中,确定训练样本集,包括:
获取目标图像的第一色块以及目标图像对应的参考图像的第二色块,第一色块为目标图像中的任一色块,第二色块为参考图像中与第一色块在目标图像中的位置相对应的色块;确定第一色块在目标图像中的投影点位置,以及确定第二色块在参考图像中的投影点位置;基于第一色块在目标图像中的投影点位置和第二色块在参考图像中的投影点位置,确定第一色块和第二色块之间的标签值,标签值用于描述第一色块与第二色块之间的距离平方值;确定第一色块、第二色块以及第一色块和第二色块之间的标签值,为训练样本集。
其中,数据集中的每个项目都需要参考图像和目标图像中的相对应的色块,而标签值是色块中心和/>之间距离的平方,通常可用作基于特征的方法中的优化目标。
确定第一色块在目标图像中的投影点位置,可通过如下实现。
目标图像中的每个色块中心都需要真实的深度,从而可以进行3D的位姿变换。通过变换T将/>中的像素/>投影到/>中,从而获得投影点/>。如下公式(3)。
(3)
确定第二色块在参考图像中的投影点位置,可通过如下实现。
如果和/>之间的位姿变换正确,则在光度不变性假设下,两个图像中的对应色块光度应该相同,色块对相应的标签为零。将干扰/>(变换矩阵)应用于位姿变换将导致投影点如下(4)。
(4)
其中,,可以由与等式处SE(3)的切线空间相对应的李代数/>表示,李代数可用/>表示,通过指数映射映射到SE(3)。如下式(5)。
(5)
式(5)中,是在-aa之间均匀分布的,如下公式(6)。
(6)
得到两个色块对应的标签值如下式(7)。
(7)
在训练样本集中,每个参考图像中的色块可对应目标图像中的多个色块,每一组对应色块间存在一个标签值。从而,有效确定出训练样本集。
需要说明的是,训练样本集的准确性对于网络训练至关重要,为了自动地制作数据集,本实施例通过使用改进的DSO进行数据制作,主要的改进是将原来8个像素点的色块改为3232的像素色块。
目标网络结构可包括回归网络结构、分类网络结构或排序网络结构。
一些实施例中,构建目标网络结构,包括:
构建第一网络层、第二网络层、第三网络层和第四网络层,第一网络层作为回归网络结构的初始层,第一网络层、第二网络层、第三网络层以及第四网络层均分别由卷积层、BN层和非线性层组成;在第一网络层和第二网络层之间,搭建第一池化层;在第二网络层和第三网络层之间,搭建第二池化层;在第三网络层和第四网络层之间,搭建第三池化层;在第四网络层之上,搭建第四池化层;在第四池化层之上,搭建卷积层;在卷积层之上,搭建视图层,得到回归网络结构;其中,视图层用于将矩阵提取为向量。
如图2所示,第一网络层如Conv0+BN0+relu,Conv0为一个卷积层,BN0为一个BN层,relu为非线性层;第二网络层如Conv1+BN1+relu,Conv1为一个卷积层,BN1为一个BN层;第三网络层如Conv2+BN2+relu,Conv2为一个卷积层,BN2为一个BN层;第四网络层如Conv3+BN3+relu,Conv3为一个卷积层,BN3为一个BN层;第一池化层、第二池化层、第三池化层、第四池化层分别为:Pool0、Pool1、Pool2、Pool3;第四池化层之上的卷积层如Conv4,视图层如View(125)。
其中,输入的第一色块和第二色块依次经过第一网络层、第一池化层、第二网络层、第二池化层、第三网络层、第三池化层、第四网络层、第四池化层、卷积层进行矩阵处理,并经过视图层将处理后的矩阵提取为两个125-D向量,并确定两个向量的l2为两个色块之间的相似度量值。回归网络结构的输出(一个标量)和标签值之间的差异(l1范数)是网络训练的损失函数。从而,构建出可用于衡量相似性度量的回归网络结构。
另一些实施例中,构建目标网络结构,包括:
构建第五网络层、第六网络层、第七网络层、第八网络层和第九网络层,第五网络层作为分类网络结构的初始层,第五网络层、第六网络层、第七网络层、第八网络层以及第九网络层均分别由卷积层、非线性层和BN层组成;在第五网络层和第六网络层之间,搭建第五池化层;在第八网络层和第九网络层之间,搭建第六池化层;在第九网络层之上,依次搭建视图层、第十网络层、第十一网络层、第一全连接层和输出层,得到分类网络结构,第十网络层和第十一网络层均分别由第二全连接层和非线性层组成;其中,视图层用于将矩阵提取为向量,第一全连接层的输出为一个10维向量,10维向量用于分别表示10个类别的权重,输出层用于基于10维向量中对应的最大权重确定两个色块之间的相似度量值。
如图3所示,第五网络层如Conv0+relu+BN0,Conv0为一个卷积层,BN0为一个BN层,第六网络层如Conv1+relu+BN1,Conv1为一个卷积层,BN1为一个BN层,第七网络层如Conv2+relu+BN2,Conv2为一个卷积层,BN2为一个BN层,第八网络层如Conv3+relu+BN3,Conv3为一个卷积层,BN3为一个BN层,第九网络层如Conv4+relu+BN4,Conv4为一个卷积层,BN4为一个BN层;第五池化层、第六池化层分别为:Pool0、Pool1;视图层如View;第十网络层、第十一网络层、第一全连接层分别为:FC1+relu、FC2+relu、FC3(10);输出层为:SoftMax+CrossEntropy。
其中,输入的第一色块和第二色块依次经过第五网络层、第五池化层、第六网络层、第七网络层、第八网络层、第六池化层、第九网络层,进行矩阵处理,并经过视图层将处理后的矩阵提取为向量,再经由第十网络层、第十一网络层、第一全连接层,输出一个10维向量,10维向量用于对应10个类别的权重,由SoftMax确定出10维向量中对应的最大权重值对应的维度,最后由CrossEntropy确定两个色块之间的相似度量值。从而,构建出可用于衡量相似性度量的分类网络结构。
举例而言,根据标签在训练样本集中的数值分布,标签可分为10类,如下表1所示,如果标签的值大于且小于/>,则标签被分类为第i类。
表1 标签分类表
分类网络结构的输入是一个两通道的色块(每个通道分别为参考图像色块和目标图像色块)。
相似性度量可通过如下公式(8)实现。
(8)
式(8)中,out是第一全连接层的输出,i是取最大值时out所在的维度,为相似度量值。
又一些实施例中,构建目标网络结构,包括:
构建第十二网络层、第十三网络层、第十四网络层、第十五网络层和第十六网络层,第十二网络层作为排序网络结构的初始层,第十二网络层、第十三网络层、第十四网络层、第十五网络层以及第十六网络层均分别由卷积层、非线性层和BN层组成;在第十二网络层和第十三网络层之间,搭建第七池化层;在第十五网络层和第十六网络层之间,搭建第八池化层;在第十六网络层之上,依次搭建视图层、第十七网络层、第十八网络层和第三全连接层,得到排序网络结构,第十七网络层和第十八网络层均分别由第四全连接层和非线性层组成;其中,第三全连接层的输出为一个标量,标量用于表示两个色块之间的相似度量值。
如图4所示,第十二网络层如Conv0+relu+BN0,Conv0为一个卷积层,BN0为一个BN层,第十三网络层如Conv1+relu+BN1,Conv1为一个卷积层,BN1为一个BN层,第十四网络层如Conv2+relu+BN2,Conv2为一个卷积层,BN2为一个BN层,第十五网络层如Conv3+relu+BN3,Conv3为一个卷积层,BN3为一个BN层,第十六网络层如Conv4+relu+BN4,Conv4为一个卷积层,BN4为一个BN层;第七池化层和第八池化层分别为:Pool0、Pool1;视图层如View;第十七网络层、第十八网络层和第三全连接层分别为:FC1+relu、FC2+relu、FC3(1)。
其中,输入的第一色块和第二色块依次经过第十二网络层、第七池化层、第十三网络层、第十四网络层、第十五网络层、第八池化层、第十六网络层、视图层、第十七网络层、第十八网络层和第三全连接层,最后由第三全连接层输出两个色块之间的相似度量值。从而,构建出可用于衡量相似性度量的排序网络结构。
排序网络结构受输出顺序的监督,每个子网的输入是一个两通道色块,输出是一个标量,可以直接用作相似性度量。每个子网络共享参数,每个子网输入的参考图像中的色块是相同的,并且目标色块根据位姿T而变化。子网络的数量为9,每个子网的输出可以压缩为9-D向量,可分别使用最高概率模型和排列概率模型两个损失函数来训练网络。
本实施例还提供了一种网络输出的评估标准,定义如下公式(9)。
(9)
分母中的对数函数可确保其对小标签值的敏感性,不仅评估排序的效果,而且对特定值也很敏感,最后将其定义如下(10)。
(10)
式(10)中,是当输出按升序排序时的/>的值,在这种情况下将获得最大。相反,当将输出按降序排序时,,随机排序在概率意义上是两者的中位数。理想情况下,网络输出应不断增大。
网络结构的输出和SAD、SSD的及下降率如下表2所示。
可见,分类(Classification)、回归(Regression)、排序(Permutation,Top one)网络输出在不同的环境下(a=0.03及a=0.06)均比传统的SSD、SAD取得更好的结果。
图5为本实施例提供的一种基于尺度学习的图像配准装置的结构示意图,其中,基于尺度学习的图像配准装置可包括:确定模块510、构建模块520、训练模块530和配准模块540。
确定模块510,用于确定训练样本集,所述训练样本集中包括目标图像的第一色块、所述目标图像对应的参考图像的第二色块、以及所述第一色块与所述第二色块的标签值,所述第一色块在所述目标图像中的位置与所述第二色块在所述参考图像中的位置相对应。
构建模块520,用于构建目标网络结构,所述目标网络结构的输入为所述第一色块和所述第二色块,输出为所述第一色块和所述第二色块的相似度量值。
训练模块530,用于基于所述训练样本集对所述目标网络结构进行训练,得到目标学习模型,所述目标学习模型用于根据输入的两个色块,输出两个所述色块之间的相似度量值。
确定模块510,还用于将待匹配图像的第三色块与匹配图像的第四色块输入所述目标学习模型中,基于所述目标学习模型的输出得到所述第三色块和所述第四色块之间的相似度量值,所述第三色块为所述待匹配图像中的任一色块,所述第四色块为所述匹配图像中与所述第三色块在所述待匹配图像中的位置相对应的色块。
配准模块540,用于基于所述第三色块和所述第四色块之间的相似度量值,配准所述待匹配图像和所述匹配图像。
在本实施例中,可选的,确定模块510,具体用于:
获取目标图像的第一色块以及所述目标图像对应的参考图像的第二色块,所述第一色块为所述目标图像中的任一色块,所述第二色块为所述参考图像中与所述第一色块在所述目标图像中的位置相对应的色块;确定所述第一色块在所述目标图像中的投影点位置,以及确定所述第二色块在所述参考图像中的投影点位置;基于所述第一色块在所述目标图像中的投影点位置和所述第二色块在所述参考图像中的投影点位置,确定所述第一色块和所述第二色块之间的标签值,所述标签值用于描述所述第一色块与第二色块之间的距离平方值;确定所述第一色块、所述第二色块以及所述第一色块和所述第二色块之间的标签值,为所述训练样本集。
在本实施例中,可选的,所述目标网络结构包括回归网络结构、分类网络结构或排序网络结构。
在本实施例中,可选的,构建模块520,具体用于:
构建第一网络层、第二网络层、第三网络层和第四网络层,所述第一网络层作为所述回归网络结构的初始层,所述第一网络层、所述第二网络层、第三网络层以及第四网络层均分别由卷积层、BN层和非线性层组成;在所述第一网络层和所述第二网络层之间,搭建第一池化层;在所述第二网络层和所述第三网络层之间,搭建第二池化层;在所述第三网络层和所述第四网络层之间,搭建第三池化层;在所述第四网络层之上,搭建第四池化层;在所述第四池化层之上,搭建所述卷积层;在所述卷积层之上,搭建视图层,得到所述回归网络结构;其中,所述视图层用于将矩阵提取为向量。
在本实施例中,可选的,构建模块520,具体用于:
构建第五网络层、第六网络层、第七网络层、第八网络层和第九网络层,所述第五网络层作为所述分类网络结构的初始层,所述第五网络层、所述第六网络层、所述第七网络层、所述第八网络层以及所述第九网络层均分别由卷积层、非线性层和BN层组成;在所述第五网络层和所述第六网络层之间,搭建第五池化层;在所述第八网络层和所述第九网络层之间,搭建第六池化层;在所述第九网络层之上,依次搭建视图层、第十网络层、第十一网络层、第一全连接层和输出层,得到所述分类网络结构,所述第十网络层和所述第十一网络层均分别由第二全连接层和非线性层组成;其中,所述视图层用于将矩阵提取为向量,所述第一全连接层的输出为一个10维向量,所述10维向量用于分别表示10个类别的权重,所述输出层用于基于所述10维向量中对应的最大权重确定两个色块之间的相似度量值。
在本实施例中,可选的,构建模块520,具体用于:
构建第十二网络层、第十三网络层、第十四网络层、第十五网络层和第十六网络层,所述第十二网络层作为所述排序网络结构的初始层,所述第十二网络层、所述第十三网络层、所述第十四网络层、所述第十五网络层以及所述第十六网络层均分别由卷积层、非线性层和BN层组成;在所述第十二网络层和所述第十三网络层之间,搭建第七池化层;在所述第十五网络层和所述第十六网络层之间,搭建第八池化层;在所述第十六网络层之上,依次搭建视图层、第十七网络层、第十八网络层和第三全连接层,得到所述排序网络结构,所述第十七网络层和所述第十八网络层均分别由第四全连接层和非线性层组成;其中,所述第三全连接层的输出为一个标量,所述标量用于表示两个色块之间的相似度量值。
在本实施例中,可选的,训练模块530,具体用于:
依次将所述训练样本集中的对应色块组输入所述目标网络结构中,得到所述第一色块和所述第二色块之间的相似度量值,所述对应色块组包括所述第一色块和所述第二色块;在所述相似度量值与所述标签值之间的差值小于预设损失值时,确定所述目标网络结构训练完成,得到所述目标学习模型。
本公开提供的基于尺度学习的图像配准装置,可执行上述方法实施例,其具体实现原理和技术效果,可参见上述方法实施例,本公开此处不再赘述。
本申请实施例还提供了一种计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
计算机设备包括通过系统总线相互通信连接存储器610和处理器620。需要指出的是,图中仅示出了具有组件610-620的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-ProgrammableGate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器610至少包括一种类型的可读存储介质,可读存储介质包括非易失性存储器(non-volatile memory)或易失性存储器,例如,闪存(flash memory)、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦写可编程只读存储器(erasable programmableread-only memory,EPROM)、电可擦写可编程只读存储器(electricallyerasableprogrammable read-only memory,EEPROM)、可编程只读存储器(programmable read-onlymemory,PROM)、磁性存储器、磁盘、光盘等,RAM可以包括静态RAM或动态RAM。在一些实施例中,存储器610可以是计算机设备的内部存储单元,例如,该计算机设备的硬盘或内存。在另一些实施例中,存储器610也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡或闪存卡(Flash Card)等。当然,存储器610还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器610通常用于存储安装于计算机设备的操作系统和各类应用软件,例如上述方法的程序代码等。此外,存储器610还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器620通常用于执行计算机设备的总体操作。本实施例中,存储器610用于存储程序代码或指令,程序代码包括计算机操作指令,处理器620用于执行存储器610存储的程序代码或指令或者处理数据,例如运行上述方法的程序代码。
本文中,总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。该总线系统可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请的另一实施例还提供一种计算机可读介质,计算机可读介质可以是计算机可读信号介质或者计算机可读介质。计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码,使得处理器能够执行在上述方法中每个步骤、或各步骤的组合中规定的功能动作;生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。
计算机可读介质包含但不限于电子、磁性、光学、电磁、红外的存储器或半导体系统、设备或者装置,或者前述的任意适当组合,存储器用于存储程序代码或指令,程序代码包括计算机操作指令,处理器用于执行存储器存储的上述方法的程序代码或指令。
存储器和处理器的定义,可以参考前述计算机设备实施例的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。本申请描述的“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置若干的单元权利要求中,这些装置中的若干个单元可以是通过同一个硬件项来具体体现。第一、第二、以及第三等的使用不表示任何顺序,可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于尺度学习的图像配准方法,其特征在于,包括:
确定训练样本集,所述训练样本集中包括目标图像的第一色块、所述目标图像对应的参考图像的第二色块、以及所述第一色块与所述第二色块的标签值,所述第一色块在所述目标图像中的位置与所述第二色块在所述参考图像中的位置相对应;
构建目标网络结构,所述目标网络结构的输入为所述第一色块和所述第二色块,输出为所述第一色块和所述第二色块的相似度量值;
基于所述训练样本集对所述目标网络结构进行训练,得到目标学习模型,所述目标学习模型用于根据输入的两个色块,输出两个所述色块之间的相似度量值;
将待匹配图像的第三色块与匹配图像的第四色块输入所述目标学习模型中,基于所述目标学习模型的输出得到所述第三色块和所述第四色块之间的相似度量值,所述第三色块为所述待匹配图像中的任一色块,所述第四色块为所述匹配图像中与所述第三色块在所述待匹配图像中的位置相对应的色块;
基于所述第三色块和所述第四色块之间的相似度量值,配准所述待匹配图像和所述匹配图像。
2.根据权利要求1所述的方法,其特征在于,所述确定训练样本集,包括:
获取目标图像的第一色块以及所述目标图像对应的参考图像的第二色块,所述第一色块为所述目标图像中的任一色块,所述第二色块为所述参考图像中与所述第一色块在所述目标图像中的位置相对应的色块;
确定所述第一色块在所述目标图像中的投影点位置,以及确定所述第二色块在所述参考图像中的投影点位置;
基于所述第一色块在所述目标图像中的投影点位置和所述第二色块在所述参考图像中的投影点位置,确定所述第一色块和所述第二色块之间的标签值,所述标签值用于描述所述第一色块与第二色块之间的距离平方值;
确定所述第一色块、所述第二色块以及所述第一色块和所述第二色块之间的标签值,为所述训练样本集。
3.根据权利要求1所述的方法,其特征在于,所述目标网络结构包括回归网络结构、分类网络结构或排序网络结构。
4.根据权利要求3所述的方法,其特征在于,所述构建目标网络结构,包括:
构建第一网络层、第二网络层、第三网络层和第四网络层,所述第一网络层作为所述回归网络结构的初始层,所述第一网络层、所述第二网络层、所述第三网络层以及所述第四网络层均分别由卷积层、BN层和非线性层组成;
在所述第一网络层和所述第二网络层之间,搭建第一池化层;在所述第二网络层和所述第三网络层之间,搭建第二池化层;在所述第三网络层和所述第四网络层之间,搭建第三池化层;
在所述第四网络层之上,搭建第四池化层;在所述第四池化层之上,搭建所述卷积层;在所述卷积层之上,搭建视图层,得到所述回归网络结构;
其中,所述视图层用于将矩阵提取为向量。
5.根据权利要求3所述的方法,其特征在于,所述构建目标网络结构,包括:
构建第五网络层、第六网络层、第七网络层、第八网络层和第九网络层,所述第五网络层作为所述分类网络结构的初始层,所述第五网络层、所述第六网络层、所述第七网络层、所述第八网络层以及所述第九网络层均分别由卷积层、非线性层和BN层组成;
在所述第五网络层和所述第六网络层之间,搭建第五池化层;在所述第八网络层和所述第九网络层之间,搭建第六池化层;
在所述第九网络层之上,依次搭建视图层、第十网络层、第十一网络层、第一全连接层和输出层,得到所述分类网络结构,所述第十网络层和所述第十一网络层均分别由第二全连接层和所述非线性层组成;
其中,所述视图层用于将矩阵提取为向量,所述第一全连接层的输出为一个10维向量,所述10维向量用于分别表示10个类别的权重,所述输出层用于基于所述10维向量中对应的最大权重确定两个色块之间的相似度量值。
6.根据权利要求3所述的方法,其特征在于,所述构建目标网络结构,包括:
构建第十二网络层、第十三网络层、第十四网络层、第十五网络层和第十六网络层,所述第十二网络层作为所述排序网络结构的初始层,所述第十二网络层、所述第十三网络层、所述第十四网络层、所述第十五网络层以及所述第十六网络层均分别由卷积层、非线性层和BN层组成;
在所述第十二网络层和所述第十三网络层之间,搭建第七池化层;在所述第十五网络层和所述第十六网络层之间,搭建第八池化层;
在所述第十六网络层之上,依次搭建视图层、第十七网络层、第十八网络层和第三全连接层,得到所述排序网络结构,所述第十七网络层和所述第十八网络层均分别由第四全连接层和所述非线性层组成;
其中,所述第三全连接层的输出为一个标量,所述标量用于表示两个色块之间的相似度量值。
7.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本集对所述目标网络结构进行训练,得到目标学习模型,包括:
依次将所述训练样本集中的对应色块组输入所述目标网络结构中,得到所述第一色块和所述第二色块之间的相似度量值,所述对应色块组包括所述第一色块和所述第二色块;
在所述相似度量值与所述标签值之间的差值小于预设损失值时,确定所述目标网络结构训练完成,得到所述目标学习模型。
8.一种基于尺度学习的图像配准装置,其特征在于,包括:
确定模块,用于确定训练样本集,所述训练样本集中包括目标图像的第一色块、所述目标图像对应的参考图像的第二色块、以及所述第一色块与所述第二色块的标签值,所述第一色块在所述目标图像中的位置与所述第二色块在所述参考图像中的位置相对应;
构建模块,用于构建目标网络结构,所述目标网络结构的输入为所述第一色块和所述第二色块,输出为所述第一色块和所述第二色块的相似度量值;
训练模块,用于基于所述训练样本集对所述目标网络结构进行训练,得到目标学习模型,所述目标学习模型用于根据输入的两个色块,输出两个所述色块之间的相似度量值;
确定模块,还用于将待匹配图像的第三色块与匹配图像的第四色块输入所述目标学习模型中,基于所述目标学习模型的输出得到所述第三色块和所述第四色块之间的相似度量值,所述第三色块为所述待匹配图像中的任一色块,所述第四色块为所述匹配图像中与所述第三色块在所述待匹配图像中的位置相对应的色块;
配准模块,用于基于所述第三色块和所述第四色块之间的相似度量值,配准所述待匹配图像和所述匹配图像。
9.一种计算机设备,其特征在于,包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序时实现如权利要求1~7中任一所述的基于尺度学习的图像配准方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1~7中任一所述的基于尺度学习的图像配准方法。
CN202410037637.1A 2024-01-10 2024-01-10 基于尺度学习的图像配准方法、装置、计算机设备和介质 Pending CN117853537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410037637.1A CN117853537A (zh) 2024-01-10 2024-01-10 基于尺度学习的图像配准方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410037637.1A CN117853537A (zh) 2024-01-10 2024-01-10 基于尺度学习的图像配准方法、装置、计算机设备和介质

Publications (1)

Publication Number Publication Date
CN117853537A true CN117853537A (zh) 2024-04-09

Family

ID=90540043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410037637.1A Pending CN117853537A (zh) 2024-01-10 2024-01-10 基于尺度学习的图像配准方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN117853537A (zh)

Similar Documents

Publication Publication Date Title
CN109522942B (zh) 一种图像分类方法、装置、终端设备和存储介质
WO2018021942A2 (ru) Распознавание лиц с помощью искусственной нейронной сети
CN112966725B (zh) 匹配模板图像的方法、装置及终端设备
CN110852311A (zh) 一种三维人手关键点定位方法及装置
CN112084849A (zh) 图像识别方法和装置
CN111488937B (zh) 一种基于多尺度邻居深度神经网络的图像匹配方法
CN110704652A (zh) 基于多重注意力机制的车辆图像细粒度检索方法及装置
CN112102294A (zh) 生成对抗网络的训练方法及装置、图像配准方法及装置
US20200005078A1 (en) Content aware forensic detection of image manipulations
CN112198878B (zh) 一种即时地图构建方法、装置、机器人及存储介质
CN111373393B (zh) 图像检索方法和装置以及图像库的生成方法和装置
CN111199558A (zh) 一种基于深度学习的图像匹配方法
CN113298146A (zh) 一种基于特征检测的图像匹配方法、装置、设备及介质
CN110163095B (zh) 回环检测方法、回环检测装置及终端设备
CN108961164A (zh) 基于几何不变量的图像配准拼接方法和装置及计算机设备
CN110135428B (zh) 图像分割处理方法和装置
CN111161348B (zh) 一种基于单目相机的物体位姿估计方法、装置及设备
Li et al. Guided neighborhood affine subspace embedding for feature matching
CN105190689A (zh) 包括基于毗连特征的对象检测和/或双边对称对象分段的图像处理
CN111951211B (zh) 一种目标检测方法、装置及计算机可读存储介质
Geng et al. SANet: A novel segmented attention mechanism and multi-level information fusion network for 6D object pose estimation
CN111104965A (zh) 车辆目标识别的方法及装置
CN117853537A (zh) 基于尺度学习的图像配准方法、装置、计算机设备和介质
CN113033578B (zh) 基于多尺度特征匹配的图像校准方法、系统、终端及介质
CN112464753B (zh) 图像中关键点的检测方法、检测装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination