CN111681270A - 一种实现图像帧之间配准的方法、装置和存储介质 - Google Patents

一种实现图像帧之间配准的方法、装置和存储介质 Download PDF

Info

Publication number
CN111681270A
CN111681270A CN202010321575.9A CN202010321575A CN111681270A CN 111681270 A CN111681270 A CN 111681270A CN 202010321575 A CN202010321575 A CN 202010321575A CN 111681270 A CN111681270 A CN 111681270A
Authority
CN
China
Prior art keywords
image frames
pixel
correlation
value
target frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010321575.9A
Other languages
English (en)
Inventor
张涛
李少朋
杨新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Huayun Intelligent Technology Co ltd
Tsinghua University
Original Assignee
Ningbo Huayun Intelligent Technology Co ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Huayun Intelligent Technology Co ltd, Tsinghua University filed Critical Ningbo Huayun Intelligent Technology Co ltd
Priority to CN202010321575.9A priority Critical patent/CN111681270A/zh
Publication of CN111681270A publication Critical patent/CN111681270A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种实现图像帧之间配准的方法、装置和存储介质,具体为获取样本图像帧,并在样本图像帧中选取参考帧以及需要与参考帧进行配准的目标帧,将参考帧中的第一像素点投影至目标帧中得到投影点,投影点与第一像素点对应在目标帧中的第二像素点之间的距离的平方作为标签数值,分别对第一相关性度量模型和第二相关性度量模型进行训练,并使用两个相关性度量模型预测两个待配准图像帧之间的最优相关性度量值,并在待配准图像帧之间进行配准。本申请实施例通过制作与图像帧之间的位姿优化正相关的相关性度量值对应的数据集,并分别通过两种相关性度量模型进行相关性度量值的预测,提升了利用相关性度量值在图像帧之间进行配准的准确性。

Description

一种实现图像帧之间配准的方法、装置和存储介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种实现图像帧之间配准的方法、装置和存 储介质。
背景技术
即时定位与地图构建(Simultaneous Localization and Mapping,SLAM)中最核心的部 分是图像帧之间的相对位姿求解,即图像配准的过程。图像配准是求解刚性空间变换的过程, 该变换将一个图像中的点或斑块准确地映射到另一图像中的对应点或斑块,这在视觉几何中 得到了广泛使用。同时,精确的帧间位姿求解也是实现立体成像、视觉三维重建和运动恢复 结构等技术的必要前提。
具体的,帧间位姿的优化可以分为基于特征对应的特征点法和基于光度误差的直接法, 特征点法通过人工设计的特征点获得图像之间的匹配关系,然后通过最小化特征的对齐误差 (重投影误差)来优化位姿,其中特征的提取与匹配是比较耗时的工作,而且存在误匹配的 风险;直接法则通过最小化图像斑块(patch)的光度误差来完成位姿优化,其中光度误差计 算方式影响了优化模型的收敛性。光度误差为图像斑块之间的相似性度量,传统的相似性度 量方式包括光度的绝对误差和(Sum of Absolute Differences,SAD)、误差平方和(Sum of Squared Differences,SSD)等,采用此类度量方式指导优化的前提为随着度量误差的逐渐 减小,位姿会逐渐接近于真实值,二者的正相关性决定了优化模型的凸性。但是,使用诸如 SSD的相似性度量来优化相对姿态取决于以下相关性:随着相似性得分的增加,相对姿态逐 渐接近真实值。对于SSD等算法,这种正相关性很弱。由于大数据中的正相关性较弱,因此 只有当大量的斑块参与计算时,姿态估计误差才会平滑收敛。因此,基于光度的视觉历程, 例如基于大尺度单目直接法的视觉里程设计(Large Scale Directmonocular,LSD)和基于 稀疏直接法的视觉里程计(Semi-direct Visual Odemetry,DSO)必须通过使用大量斑块和 多帧联合优化来保持其收敛性和准确性。所以采用直接法的SLAM,都不得不采用图像金字塔 等方式来求解较好的初值,并且需要采用大量的斑块采样、联合优化等方式来维持相似性度 量尺度和位姿精度之间的正相关性,从而保证优化的收敛性和准确性。因此使用上述方法, 可能使得图像帧之间的位姿优化限于局部优化,并因其度量标准与位姿优化之间的相关性较 弱,使得图像帧之间的位姿优化准确性较低。
发明内容
本申请实施例提供了一种实现图像帧之间配准的方法,克服了图像帧之间位姿优化精度 较低的问题。
该方法包括:
获取样本图像帧,并在所述样本图像帧中选取参考帧以及需要与所述参考帧进行配准的 目标帧;
将所述参考帧中的第一像素点投影至所述目标帧中得到投影点,并将所述投影点与所述 第一像素点对应在所述目标帧中的第二像素点之间的距离的平方作为标签数值;
将所述参考帧和所述目标帧作为输入数据,并将与所述参考帧和所述目标帧对应的所述 标签数值作为输出数据,将所述输入数据和所述输出数据作为数据集分别对第一相关性度量 模型和第二相关性度量模型进行训练;
将至少两个待配准图像帧输入预先训练的所述第一相关性度量模型和所述第二相关性度 量模型,分别得到两个所述待配准图像帧之间的第一相关性度量值和第二相关性度量值;
基于所述第一相关性度量值和所述第二相关性度量值,生成在所述待配准图像帧之间的 最优相关性度量值,并在所述待配准图像帧之间进行配准。
可选地,对所述参考帧和所述目标帧中进行划分,分别得到所述参考帧对应的至少一个 第一像素块,以及所述目标帧对应的至少一个第二像素块;
获取至少一个所述第一像素块的几何中心的所述第一像素点的像素深度;
基于所述第一像素点的像素深度和随机位姿参数,计算所述第一像素点投影至所述目标 帧中对应的所述第二像素块上的所述投影点的坐标,其中,所述随机位姿参数为在实际位姿 参数上添加随机变量生成的位姿参数。
可选地,基于所述第一像素块与对应的所述第二像素块之间的所述实际位姿参数,计算 所述第二像素点的坐标。
可选地,将所述输入数据中的所述参考帧中的所述第一像素块输入所述第一相关性度量 模型中的第一回归网络结构,以及将所述目标帧中与所述第一像素块对应的所述第二像素块 输入所述第一相关性度量模型中的第二回归网络结构,其中,所述第一回归网络结构和所述 第二回归网络结构之间共享参数;
计算所述第一回归网络结构输出的第一向量与所述第二回归网络结构输出的第二向量之 间的欧几里得范数,将所述欧几里得范数与所述标签数值之间差值的绝对值作为所述第一相 关性度量模型的损失函数,对所述第一相关性度量模型进行训练。
可选地,将所述输入数据中的所述参考帧中的所述第一像素块和所述目标帧中的所述第 二像素块组成的至少一个像素块对输入所述第二相关性度量模型,输出所述像素块对所在的 相关性度量值类别的类别权重;
基于所述类别权重计算对应的所述像素块的所述第二相关性度量值,并将所述第二相关 性度量值与所述标签数值之间交叉熵作为所述第二相关性度量模型的损失函数,对所述第二 相关性度量模型进行训练。
可选地,计算所述第一相关性度量值和所述第二相关性度量值的平均值,并将所述平均 值作为所述待配准图像帧之间的所述最优相关性度量值。
在本发明的另一个实施例中,提供了一种实现图像帧之间配准的装置,该装置包括:
获取模块,用于获取样本图像帧,并在所述样本图像帧中选取参考帧以及需要与所述参 考帧进行配准的目标帧;
投影模块,用于将所述参考帧中的第一像素点投影至所述目标帧中得到投影点,并将所 述投影点与所述第一像素点对应在所述目标帧中的第二像素点之间的距离的平方作为标签数 值;
训练模块,用于将所述参考帧和所述目标帧作为输入数据,并将与所述参考帧和所述目 标帧对应的所述标签数值作为输出数据,将所述输入数据和所述输出数据作为数据集分别对 第一相关性度量模型和第二相关性度量模型进行训练;
度量模块,用于将至少两个待配准图像帧输入预先训练的所述第一相关性度量模型和所 述第二相关性度量模型,分别得到两个所述待配准图像帧之间的第一相关性度量值和第二相 关性度量值;
生成模块,用于基于所述第一相关性度量值和所述第二相关性度量值,生成在所述待配 准图像帧之间的最优相关性度量值,并在所述待配准图像帧之间进行配准。
可选地,所述投影模块包括:
划分单元,用于对所述参考帧和所述目标帧中进行划分,分别得到所述参考帧对应的至 少一个第一像素块,以及所述目标帧对应的至少一个第二像素块;
获取单元,用于获取至少一个所述第一像素块的几何中心的所述第一像素点的像素深度;
计算单元,用于基于所述第一像素点的像素深度和随机位姿参数,计算所述第一像素点 投影至所述目标帧中对应的所述第二像素块上的所述投影点的坐标,其中,所述随机位姿参 数为在实际位姿参数上添加随机变量生成的位姿参数。
在本发明的另一个实施例中,提供了一种非瞬时计算机可读存储介质,所述非瞬时计算 机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行上述一种实现图 像帧之间配准的方法中的各个步骤。
在本发明的另一个实施例中,提供了一种终端设备,包括处理器,所述处理器用于执行 上述一种实现图像帧之间配准的方法中的各个步骤。
基于上述实施例,首先获取样本图像帧,并在样本图像帧中选取参考帧以及需要与参考 帧进行配准的目标帧,其次,将参考帧中的第一像素点投影至目标帧中得到投影点,投影点 与第一像素点对应在目标帧中的第二像素点之间的距离的平方作为标签数值,进一步地,将 参考帧和目标帧作为输入数据,并将与参考帧和目标帧对应的标签作为输出数据,将输入数 据和输出数据作为数据集分别对第一相关性度量模型和第二相关性度量模型进行训练,进一 步地,将至少两个待配准图像帧输入预先训练的第一相关性度量模型和第二相关性度量模型, 分别得到两个待配准图像帧之间的第一相关性度量值和第二相关性度量值,最后,基于第一 相关性度量值和第二相关性度量值,生成在待配准图像帧之间的最优相关性度量值,并在待 配准图像帧之间进行配准。本申请实施例通过制作与图像帧之间的位姿优化正相关的相关性 度量值对应的数据集,并分别通过两种相关性度量模型进行相关性度量值的预测,生成图像 帧之间的最优相关性度量值,提升了利用相关性度量值在图像帧之间进行配准的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简 单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的 限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图 获得其他相关的附图。
图1示出了本申请实施例100所提供的一种实现图像帧之间配准的方法的流程示意图;
图2示出了本申请实施例200示出的图像帧之间的位姿优化示意图;
图3示出了本申请实施例300提供的一种实现图像帧之间配准的方法的具体流程的示意 图;
图4示出了本申请实施例400提供的数据集的示意图;
图5示出了本申请实施例提供的第一相关性度量模型的示意图;
图6示出了本申请实施例提供的第二相关性度量模型的示意图;
图7示出了本申请实施例700还提供一种实现图像帧之间配准的装置的示意图;
图8示出了本申请实施例800所提供的一种终端设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都 属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例如能够以除了 在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、 产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
通过采用神经网络的方式学习由图像帧对到投影误差的映射关系,即以两个样本图像帧 为数据集,经过神经网络学习输出样本图像帧中心点之间的距离,用该相关性度量值指导优 化,来增强优化的收敛性。当图像帧之间的估计位姿越接近真值,图像帧之间的相关性度量 值获得的分数越高。下面以具体实施例对本发明的技术方案进行详细说明,以实现一种实现 图像帧之间配准的方法。以下几个具体实施例可以相互结合,对于相同或相似的概念或过程 可能在某些实施例中不再赘述。如图1所示,为本申请实施例100提供的一种实现图像帧之 间配准的方法的流程示意图。其中,详细步骤如下:
S11,获取样本图像帧,并在样本图像帧中选取参考帧以及需要与参考帧进行配准的目标 帧。
本步骤中,样本图像帧可以由图像采集设备采集。具体的,图像采集设备可以为照相机、 摄像机或者虚拟现实(Virtual Reality,VR)设备。在样本图像帧中选取参考帧,并将需要 与参考帧进行配准的样本图像帧确定为目标帧。因此,样本图像帧可以划分为至少一对由参 考帧和目标帧组成的图像帧对。
S12,将参考帧中的第一像素点投影至目标帧中得到投影点,并将投影点与第一像素点对 应在目标帧中的第二像素点之间的距离的平方作为标签数值。
本步骤中,在网络训练时,数据集中的每一组数据需要包括参考帧中的第一像素点uri和 目标帧中的第二像素点uti'作为输入数据,将uri的投影点uti与uti'之间距离的平方为数据集的 标签数值。其中,第一像素点为参考帧中任一像素点,投影点为第一像素点实际投影至目标 帧中的位置。而第二像素点为按照实际位姿参数计算后的第一像素点对应在目标帧中的位置。 与第二像素点的位置相比,投影点的位姿参数与实际位姿参数存在误差。因此,第二像素点 与投影点之间可能并不重合,会存在距离。
S13,将参考帧和目标帧作为输入数据,并将与参考帧和目标帧对应的标签数值作为输出 数据,将输入数据和输出数据作为数据集分别对第一相关性度量模型和第二相关性度量模型 进行训练。
本步骤中,本申请实施例主要通过第一相关性度量模型如回归网络模型和第二相关性度 量模型如分类网络,对所制作的数据集进行训练。具体的,将由参考帧和目标帧组成的图像 帧对作为输入数据,以及将图像帧对对应的标签数值作为输出数据输入神经网络,学习出一 种度量来指导位姿优化,使得第一相关性度量模型和第二相关性度量模型输出的数据与图像 帧中的像素点的投影误差的平方呈正比从而提升优化相关性度量模型的收敛性能。另外,数 据集可以划分为训练集和测试集,以验证第一相关性度量模型和第二相关性度量模型的预测 准确性。
S14,将至少两个待配准图像帧输入预先训练的第一相关性度量模型和第二相关性度量模 型,分别得到两个待配准图像帧之间的第一相关性度量值和第二相关性度量值。
本步骤中,待配准图像帧为实际需要进行位姿配准的图像帧。将至少两个待配准图像帧 输入预先训练的第一相关性度量模型和第二相关性度量模型,分别得到两个待配准图像帧之 间的第一相关性度量值和第二相关性度量值。其中,第一相关性度量值和第二相关性度量值 为损失函数,用于后续估计位姿,以实现两个待配准图像帧之间的精确配准。
S15,基于第一相关性度量值和第二相关性度量值,生成在待配准图像帧之间的最优相关 性度量值,并在待配准图像帧之间进行配准。
本步骤中,基于上述计算出的第一相关性度量值和第二相关性度量值,可以通过计算平 均值或者加权平均值的方式生成在待配准图像帧之间的最优相关性度量值。
如上所述,基于上述实施例,首先获取样本图像帧,并在样本图像帧中选取参考帧以及 需要与参考帧进行配准的目标帧,其次,将参考帧中的第一像素点投影至目标帧中得到投影 点,投影点与第一像素点对应在目标帧中的第二像素点之间的距离的平方作为标签数值,进 一步地,将参考帧和目标帧作为输入数据,并将与参考帧和目标帧对应的标签数值作为输出 数据,将输入数据和输出数据作为数据集分别对第一相关性度量模型和第二相关性度量模型 进行训练,进一步地,将至少两个待配准图像帧输入预先训练的第一相关性度量模型和第二 相关性度量模型,分别得到两个待配准图像帧之间的第一相关性度量值和第二相关性度量值, 最后,基于第一相关性度量值和第二相关性度量值,生成在待配准图像帧之间的最优相关性 度量值,并在待配准图像帧之间进行配准。本申请实施例通过制作与图像帧之间的位姿优化 正相关的相关性度量值对应的数据集,并分别通过两种相关性度量模型进行相关性度量值的 预测,生成图像帧之间的最优相关性度量值,提升了利用相关性度量值在图像帧之间进行配 准的准确性。
本申请实施例中的一种实现图像帧之间配准的方法,如图2所示,为本申请实施例200 示出的图像帧之间的位姿优化示意图。其中,通过参考帧中的第一像素点uri在实际位姿参数
Figure BDA0002461627160000071
的变换下会投影到目标帧上的第二像素点uti'处。在光度不变性的假设下,第一像素点uri和 第二像素点uti'的位置可以重合。而当位姿参数存在误差为随机位姿参数ΔT时,此时第一像 素点uri在目标帧中的投影点为uti,其与uti'的距离即投影误差,也是数据集的标签数值。进 一步地,将数据集中的每一组数据中包括的参考帧中的第一像素点uri和目标帧中的第二像素 点uti'作为输入数据,将uri的投影点uti与uti'之间距离的平方为数据集的标签数值输入相关性 度量模型进行学习。
如图3所示,为本申请实施例300提供的一种实现图像帧之间配准的方法的具体流程的 示意图。该具体流程的详细过程如下:
S301,获取样本图像帧。
这里,在获取的样本图像帧中选取参考帧以及需要与参考帧进行配准的目标帧。
S302,对参考帧和目标帧进行划分。
这里,对参考帧和目标帧中进行划分,分别得到参考帧对应的至少一个第一像素块,以 及目标帧对应的至少一个第二像素块。参考帧中的第一像素块与目标帧中的第二像素块一一 对应。
S303,将参考帧中的第一像素点投影至目标帧中得到投影点。
这里,获取至少一个第一像素块的几何中心的第一像素点的像素深度,进一步地,基于 第一像素点的像素深度和随机位姿参数,计算第一像素点投影至目标帧中对应的第二像素块 上的投影点的坐标,其中,随机位姿参数为在实际位姿参数上添加随机变量生成的位姿参数。 具体的,在实际位姿参数
Figure BDA0002461627160000081
中添加随机位姿参数ΔT,计算投影点uti为:
Figure BDA0002461627160000082
其中,duri是u处的像素深度。π是由图像采集设备的固有内参确定的投影方程。 ΔT∈SE(3),为李群的空间李代数,由ξ∈R6表示,其与SE(3)的空间映射关系为 ΔT(ξ)=exp(ξ),式中ξ是在-a到a均匀分布的:ξ(i)∈[-a,a],i=1,2,3,4,5,6。
S304,计算第二像素点的坐标。
这里,基于第一像素块与对应的第二像素块之间的实际位姿参数,计算第二像素点的坐 标。具体的,若要大量获取第二像素点uti'的位置是比较困难的,即使采用尺度不变特征变换 (Scale-invariant feature transform,SIFT)稳定特征也存在误匹配的风险且像素块在图 像帧中的朝向难以计算。因此,可以采用Vicon等设备采集实际位姿参数
Figure BDA0002461627160000085
可根据 实际位姿参数
Figure BDA0002461627160000086
进行投影获取第二像素点uti',若要准确地完成此变换还需要图像帧中像素的 深度值
Figure BDA0002461627160000087
则第二像素点uti'的坐标为:
Figure BDA0002461627160000088
其中,
Figure BDA0002461627160000089
是u处的像素深度。π是由图像采集设备的固有内参确定的投影方程。
上述步骤S303和步骤S304没有前后顺序,可以同时或者分别进行。
S305,将投影点与第一像素点对应在目标帧中的第二像素点之间的距离的平方作为标签 数值。
这里,在上述步骤结束后,此时像素块对对应的标签数值为:
Figure BDA00024616271600000810
S306,过滤数据集中的数据。
这里,在理想情况下,若经过实际位姿参数
Figure BDA00024616271600000811
完成投影,则参考帧中的第一像素块和目 标帧中投影的第二像素块在光度不变的假设下是可重合的,即二者的光度误差为零。但因为 存在随机位姿参数ΔT,投影点与第一像素点之间会产生距离。如图4所示,为本申请实施例 400示出的数据集的示意图。其中,最左侧为参考帧中的第一像素块,目标帧中的第二像素 块依据ΔT的不同而变化的标签数值。进一步地,采用在数据标签数值为零时,像素块之间的 误差平方和(Sum of Squared Differences,SSD)来评估数据集的质量,以在网络训练时, 采用改进的稀疏直接法的视觉里程计(Direct Sparse Odometry,DSO)所制作的数据集。此 外,对制作好的数据集还需要一个筛选的过程,过滤掉不太稳定的数据。若SSD值大于预设 阈值Nthre(最佳实施例的预设阈值为0.04),将剔除这一像素块对应的数据。
S307,将参考帧和目标帧作为输入数据,并将与参考帧和目标帧对应的标签数值作为输 出数据,将输入数据和输出数据作为数据集对第一相关性度量模型进行训练。
本步骤中,将输入数据中的参考帧中的第一像素块输入第一相关性度量模型中的第一回 归网络结构,以及将目标帧中与第一像素块对应的第二像素块输入第一相关性度量模型中的 第二回归网络结构,其中,第一回归网络结构和第二回归网络结构之间共享参数。进一步地, 计算第一回归网络结构输出的第一向量与第二回归网络结构输出的第二向量之间的欧几里得 范数,将欧几里得范数与标签数值之间差值的绝对值作为第一相关性度量模型的损失函数, 对第一相关性度量模型进行训练。
具体的,如图5所示,为本申请实施例示出的第一相关性度量模型的示意图。其中,第 一相关性度量模型为回归网络模型。该回归网络模型类似于孪生网络,它使用两个共享参数 的网络结构,即第一回归网络结构和第二回归网络结构。每个回归网络结构的输入分别是参 考帧中的第一像素块和目标帧中的第二像素块。各网络层参数由表1所示,其中池化层为 Max-pooling,PS:卷积层或池化层的patchsize,S:stride。“View”层用于将矩阵提取 为向量。
Figure BDA0002461627160000091
表1
每次两个回归网络结构的输出的第一向量和第二向量均为125-D向量。两个向量的欧几 里得范数即l2范数被视为相关性度量值,整个第一相关性度量模型的输出为标量。第一相关 性度量模型的输出和标签数值之间的差异,即欧几里得范数与标签数值之间差值的绝对值(l1 范数)为第一相关性度量模型训练的损失函数。
S308,将参考帧和目标帧作为输入数据,并将与参考帧和目标帧对应的标签数值作为输 出数据,将输入数据和输出数据作为数据集对第二相关性度量模型进行训练。
这里,将输入数据中的参考帧中的第一像素块和目标帧中的第二像素块组成的至少一个 像素块对输入第二相关性度量模型,输出像素块对所在的相关性度量值类别的类别权重。进 一步地,基于类别权重计算对应的像素块的第二相关性度量值,并将第二相关性度量值与标 签数值之间交叉熵作为第二相关性度量模型的损失函数,对第二相关性度量模型进行训练。
具体的,度量学习也可以建模为分类问题,根据数据集中标签数值所在的分布,将标签 数值分为预设数值类。如表2所示,将标签数值划分为10类。如果标签数值的值大于ai且小 于ai+1,则标签数值被分类为第i个类别。
a<sub>0</sub>=0.0 a<sub>1</sub>=7.9 a<sub>2</sub>=16.7 a<sub>3</sub>=27.0 a<sub>4</sub>=40.2
a<sub>5</sub>=58.1 a<sub>6</sub>=83.2 a<sub>7</sub>=120.0 a<sub>8</sub>=172.3 a<sub>9</sub>=263.3
表2
如图6所示,为本申请实施例示出的第二相关性度量模型的示意图。第二相关性度量模 型的输入数据在通道(channel)维度叠加的像素块对,即32*32*2的矩阵。第二相关性度量模型的输出为一个10维向量,代表每个类别的权重,网络训练损失函数为交叉熵,具体参数如表3所示,其中最后一层FC4的输出数据为10。
Figure BDA0002461627160000101
表3
第二相关性度量模型的输出数据是类别权重,不能直接作为相关性度量值。对前述输出 数据作进一步处理得到相关性度量值Mc
Figure BDA0002461627160000111
其中,out是第二相关性度量模型的输出数据,i是类别权重最大值所在的维度。数据 集中标签的最大值限制为1000,因此公式中使用了1000。以分类网络解决度量尺度的问题, 当像素块之间距离较大时,输出较大的类别权重;当距离较小时,输出较小的类别权重,旨 在用这种方式来训练网络输出类别权重,在大数据的支撑下,可根据类别权重及对应的计算 输出相关性度量值Mc的值。
S309,将至少两个待配准图像帧输入预先训练的第一相关性度量模型,得到两个待配准 图像帧之间的第一相关性度量值。
S310,将至少两个待配准图像帧输入预先训练的第二相关性度量模型,得到两个待配准 图像帧之间的第二相关性度量值。
S311,基于第一相关性度量值和第二相关性度量值,生成在待配准图像帧之间的最优相 关性度量值,并在待配准图像帧之间进行配准。
这里,计算第一相关性度量值和第二相关性度量值的平均值,并将平均值作为待配准图 像帧之间的最优相关性度量值。另外,也可以基于业务需要,只选择两个相关性度量值中的 其中一种作为最优相关性度量值。或基于分配权重,计算两个相关性度量值的加权平均值作 为最优相关性度量值。
本申请基于上述步骤实现上述一种实现图像帧之间配准的方法。通过在参考帧和目标帧 中分别提取像素块,并采用度量学习的方式输出像素块之间的相关性度量值,该度量用于指 导图像帧之间的位姿优化。为了实现这一目标,制作数据集,验证了数据集质量,并通过设 计的分类和回归的预测模型,完成由像素块对到重投影误差这一映射关系的学习,提升了图 像帧之间配准的精确性。
基于同一发明构思,本申请实施例700还提供一种实现图像帧之间配准的装置,其中, 如图7所示,该装置包括:
获取模块71,用于获取样本图像帧,并在样本图像帧中选取参考帧以及需要与参考帧进 行配准的目标帧;
投影模块72,用于将参考帧中的第一像素点投影至目标帧中得到投影点,并将投影点与 第一像素点对应在目标帧中的第二像素点之间的距离的平方作为标签数值;
训练模块73,用于将参考帧和目标帧作为输入数据,并将与参考帧和目标帧对应的标签 数值作为输出数据,将输入数据和输出数据作为数据集分别对第一相关性度量模型和第二相 关性度量模型进行训练;
度量模块74,用于将至少两个待配准图像帧输入预先训练的第一相关性度量模型和第二 相关性度量模型,分别得到两个待配准图像帧之间的第一相关性度量值和第二相关性度量值;
生成模块75,用于基于第一相关性度量值和第二相关性度量值,生成在待配准图像帧之 间的最优相关性度量值,并在待配准图像帧之间进行配准。
本实施例中,获取模块71、投影模块72、训练模块73、度量模块74和生成模块755的具体功能和交互方式,可参见图1对应的实施例的记载,在此不再赘述。
其中,投影模块71包括:
划分单元,用于对参考帧和目标帧中进行划分,分别得到参考帧对应的至少一个第一像 素块,以及目标帧对应的至少一个第二像素块;
获取单元,用于获取至少一个第一像素块的几何中心的第一像素点的像素深度;
计算单元,用于基于第一像素点的像素深度和随机位姿参数,计算第一像素点投影至目 标帧中对应的第二像素块上的投影点的坐标,其中,随机位姿参数为在实际位姿参数上添加 随机变量生成的位姿参数。
如图8所示,本申请的又一实施例800还提供一种终端设备,包括处理器801,其中,处理器801用于执行上述一种实现图像帧之间配准的方法的步骤。从图8中还可以看出,上述实施例提供的终端设备还包括非瞬时计算机可读存储介质802,该非瞬时计算机可读存储 介质802上存储有计算机程序,该计算机程序被处理器801运行时执行上述一种实现图像帧 之间配准的方法的步骤。实际应用中,该终端设备可以是一台或多台计算机,只要包括上述 计算机可读介质和处理器即可。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘和FLASH等,该存储介 质上的计算机程序被运行时,能够执行上述的一种实现图像帧之间配准的方法中的各个步骤。 实际应用中,所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的, 也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个 或者多个程序,当上述一个或多个程序被执行时,能够执行上述的一种实现图像帧之间配准 的方法中的各个步骤。
根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质, 例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存 储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本 申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序 可以被指令执行系统、装置或者器件使用或者与其结合使用。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计 算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框 可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含 一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中, 方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如,两个连接地表示的方框 实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。 也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用 执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令 的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多 种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申 请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合 和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技 术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进 行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申 请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变 化,或者对其中部分技术特征进行等同替换;而这些变更、变化或者替换,并不使相应技术 方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。 因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种实现图像帧之间配准的方法,其特征在于,包括:
获取样本图像帧,并在所述样本图像帧中选取参考帧以及需要与所述参考帧进行配准的目标帧;
将所述参考帧中的第一像素点投影至所述目标帧中得到投影点,并将所述投影点与所述第一像素点对应在所述目标帧中的第二像素点之间的距离的平方作为标签数值;
将所述参考帧和所述目标帧作为输入数据,并将与所述参考帧和所述目标帧对应的所述标签数值作为输出数据,将所述输入数据和所述输出数据作为数据集分别对第一相关性度量模型和第二相关性度量模型进行训练;
将至少两个待配准图像帧输入预先训练的所述第一相关性度量模型和所述第二相关性度量模型,分别得到两个所述待配准图像帧之间的第一相关性度量值和第二相关性度量值;
基于所述第一相关性度量值和所述第二相关性度量值,生成在所述待配准图像帧之间的最优相关性度量值,并在所述待配准图像帧之间进行配准。
2.根据权利要求1所述的方法,其特征在于,所述将所述参考帧中的第一像素点投影至所述目标帧中得到投影点的步骤包括:
对所述参考帧和所述目标帧中进行划分,分别得到所述参考帧对应的至少一个第一像素块,以及所述目标帧对应的至少一个第二像素块;
获取至少一个所述第一像素块的几何中心的所述第一像素点的像素深度;
基于所述第一像素点的像素深度和随机位姿参数,计算所述第一像素点投影至所述目标帧中对应的所述第二像素块上的所述投影点的坐标,其中,所述随机位姿参数为在实际位姿参数上添加随机变量生成的位姿参数。
3.根据权利要求2所述的方法,其特征在于,在所述获取样本图像帧的步骤和所述并将所述投影点与所述第一像素点对应在所述目标帧中的第二像素点之间的距离的平方作为标签数值的步骤之间,所述方法进一步包括:
基于所述第一像素块与对应的所述第二像素块之间的所述实际位姿参数,计算所述第二像素点的坐标。
4.根据权利要求2所述的方法,其特征在于,对所述第一相关性度量模型的训练过程为:
将所述输入数据中的所述参考帧中的所述第一像素块输入所述第一相关性度量模型中的第一回归网络结构,以及将所述目标帧中与所述第一像素块对应的所述第二像素块输入所述第一相关性度量模型中的第二回归网络结构,其中,所述第一回归网络结构和所述第二回归网络结构之间共享参数;
计算所述第一回归网络结构输出的第一向量与所述第二回归网络结构输出的第二向量之间的欧几里得范数,将所述欧几里得范数与所述标签数值之间差值的绝对值作为所述第一相关性度量模型的损失函数,对所述第一相关性度量模型进行训练。
5.根据权利要求2所述的方法,其特征在于,对所述第二相关性度量模型的训练过程为:
将所述输入数据中的所述参考帧中的所述第一像素块和所述目标帧中的所述第二像素块组成的至少一个像素块对输入所述第二相关性度量模型,输出所述像素块对所在的相关性度量值类别的类别权重;
基于所述类别权重计算对应的所述像素块的所述第二相关性度量值,并将所述第二相关性度量值与所述标签数值之间交叉熵作为所述第二相关性度量模型的损失函数,对所述第二相关性度量模型进行训练。
6.根据权利要求1所述的方法,其特征在于,所述生成所述待配准图像帧之间的最优相关性度量值的步骤包括:
计算所述第一相关性度量值和所述第二相关性度量值的平均值,并将所述平均值作为所述待配准图像帧之间的所述最优相关性度量值。
7.一种实现图像帧之间配准的装置,其特征在于,所述装置包括:
获取模块,用于获取样本图像帧,并在所述样本图像帧中选取参考帧以及需要与所述参考帧进行配准的目标帧;
投影模块,用于将所述参考帧中的第一像素点投影至所述目标帧中得到投影点,并将所述投影点与所述第一像素点对应在所述目标帧中的第二像素点之间的距离的平方作为标签数值;
训练模块,用于将所述参考帧和所述目标帧作为输入数据,并将与所述参考帧和所述目标帧对应的所述标签数值作为输出数据,将所述输入数据和所述输出数据作为数据集分别对第一相关性度量模型和第二相关性度量模型进行训练;
度量模块,用于将至少两个待配准图像帧输入预先训练的所述第一相关性度量模型和所述第二相关性度量模型,分别得到两个所述待配准图像帧之间的第一相关性度量值和第二相关性度量值;
生成模块,用于基于所述第一相关性度量值和所述第二相关性度量值,生成在所述待配准图像帧之间的最优相关性度量值,并在所述待配准图像帧之间进行配准。
8.根据权利要求7所述的装置,其特征在于,所述投影模块包括:
划分单元,用于对所述参考帧和所述目标帧中进行划分,分别得到所述参考帧对应的至少一个第一像素块,以及所述目标帧对应的至少一个第二像素块;
获取单元,用于获取至少一个所述第一像素块的几何中心的所述第一像素点的像素深度;
计算单元,用于基于所述第一像素点的像素深度和随机位姿参数,计算所述第一像素点投影至所述目标帧中对应的所述第二像素块上的所述投影点的坐标,其中,所述随机位姿参数为在实际位姿参数上添加随机变量生成的位姿参数。
9.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如权利要求1至6任一项所述的一种实现图像帧之间配准的方法中的各个步骤。
10.一种终端设备,其特征在于,包括处理器,所述处理器用于执行如权利要求1至6中任一项所述的一种实现图像帧之间配准的方法中的各个步骤。
CN202010321575.9A 2020-04-22 2020-04-22 一种实现图像帧之间配准的方法、装置和存储介质 Pending CN111681270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010321575.9A CN111681270A (zh) 2020-04-22 2020-04-22 一种实现图像帧之间配准的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010321575.9A CN111681270A (zh) 2020-04-22 2020-04-22 一种实现图像帧之间配准的方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN111681270A true CN111681270A (zh) 2020-09-18

Family

ID=72451669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010321575.9A Pending CN111681270A (zh) 2020-04-22 2020-04-22 一种实现图像帧之间配准的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN111681270A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435223A (zh) * 2020-11-11 2021-03-02 马鞍山市瀚海云星科技有限责任公司 目标检测方法、装置及存储介质
CN114519729A (zh) * 2020-11-20 2022-05-20 腾讯科技(深圳)有限公司 图像配准质量评估模型训练方法、装置和计算机设备
CN116797720A (zh) * 2023-03-31 2023-09-22 西安爱芯元智科技有限公司 口腔三维图像生成方法、系统及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694705A (zh) * 2018-07-05 2018-10-23 浙江大学 一种多帧图像配准与融合去噪的方法
US10346949B1 (en) * 2016-05-27 2019-07-09 Augmented Pixels, Inc. Image registration
CN110097584A (zh) * 2019-03-18 2019-08-06 国网浙江省电力有限公司信息通信分公司 结合目标检测和语义分割的图像配准方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346949B1 (en) * 2016-05-27 2019-07-09 Augmented Pixels, Inc. Image registration
CN108694705A (zh) * 2018-07-05 2018-10-23 浙江大学 一种多帧图像配准与融合去噪的方法
CN110097584A (zh) * 2019-03-18 2019-08-06 国网浙江省电力有限公司信息通信分公司 结合目标检测和语义分割的图像配准方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAOPENG LI等: "Metric Learning for Patch-Based 3-D Image Registration", 《IEEE TRANSACTIONS ON AUTOMATION SCIENCE AND ENGINEERING》 *
徐志刚等: "基于小波分解与多约束改进的序列图像配准", 《仪器仪表学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435223A (zh) * 2020-11-11 2021-03-02 马鞍山市瀚海云星科技有限责任公司 目标检测方法、装置及存储介质
CN114519729A (zh) * 2020-11-20 2022-05-20 腾讯科技(深圳)有限公司 图像配准质量评估模型训练方法、装置和计算机设备
CN116797720A (zh) * 2023-03-31 2023-09-22 西安爱芯元智科技有限公司 口腔三维图像生成方法、系统及电子设备

Similar Documents

Publication Publication Date Title
CN109523597B (zh) 相机外参的标定方法和装置
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
CN111862296B (zh) 三维重建方法及装置、系统、模型训练方法、存储介质
CN109614935B (zh) 车辆定损方法及装置、存储介质及电子设备
CN108090470B (zh) 一种人脸对齐方法及装置
CN109410316B (zh) 物体的三维重建的方法、跟踪方法、相关装置及存储介质
CN109658454B (zh) 一种位姿信息确定方法、相关装置及存储介质
CN111681270A (zh) 一种实现图像帧之间配准的方法、装置和存储介质
CN110570435B (zh) 用于对车辆损伤图像进行损伤分割的方法及装置
US9846974B2 (en) Absolute rotation estimation including outlier detection via low-rank and sparse matrix decomposition
CN113298870B (zh) 一种物体的姿态跟踪方法、装置、终端设备和存储介质
CN106373128B (zh) 一种嘴唇精确定位的方法和系统
US12026827B2 (en) Method, apparatus, system, and storage medium for 3D reconstruction
WO2021108626A1 (en) System and method for correspondence map determination
CN114862973B (zh) 基于固定点位的空间定位方法、装置、设备及存储介质
CN102567970B (zh) 图像修复方法及装置
CN105678778A (zh) 一种图像匹配方法和装置
CN117237431A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN113706472A (zh) 公路路面病害检测方法、装置、设备及存储介质
CN114757984A (zh) 光场相机的场景深度估计方法及装置
CN118015190A (zh) 一种数字孪生模型的自主构建方法及装置
CN112270748B (zh) 基于图像的三维重建方法及装置
CN117953151A (zh) 基于三维场景的稀疏重建方法和装置
CN117274349A (zh) 基于rgb-d相机一致性深度预测的透明物体重建方法及系统
CN114820755B (zh) 一种深度图估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200918

WD01 Invention patent application deemed withdrawn after publication