CN108460829B

CN108460829B - 一种用于ar系统的三维图像注册方法

Info

Publication number: CN108460829B
Application number: CN201810336814.0A
Authority: CN
Inventors: 万磊; 赵常均; 李博; 肖定坤
Original assignee: Guangzhou Intelligent Equipment Research Institute Co Ltd
Current assignee: Guangzhou Intelligent Equipment Research Institute Co Ltd
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2019-05-24
Anticipated expiration: 2038-04-16
Also published as: CN108460829A

Abstract

本发明公开了一种用于AR系统的三维图像注册方法，包括以下步骤：构建用于三维图像注册的数学模型；构建出进行深度强化学习所需要的关键参数模型，用于得到注册图像对齐到参考图像的最佳动作的“估计”；采用金字塔式策略对样本图像进行卷积神经网络训练，生成两种网络模型用于粗对齐和精对齐；输入现场图像和目标图像，利用关键参数模型和两种网络模型分别进行粗对齐和精对齐处理，完成三维图像注册。本发明，基于深度强化学习的注册策略，将三维图像注册问题定义为实现图像对齐与操作的一系列连续动作的过程，在有限的解决方案中寻找最佳动作去提高对齐的效果，能够确保找到全局最优的对齐参数，使得三维图像注册的精度得以保证。

Description

一种用于AR系统的三维图像注册方法

技术领域

本发明涉及增强现实技术领域，具体涉及一种用于AR系统的三维图像注册方法。

背景技术

近些年来，AR(Augmented Reality，增强现实)技术逐渐成为研究热点，有着非常广泛的应用前景，为了实现虚拟与现实的完美融合，高精度的三维图像注册至关重要。

传统的图像注册算法大部分都表示为最优化问题，采用通用的匹配策略去衡量图像对之间的相似度，然后通过最优准则计算图像之间的转换参数，这种方法面临两个方面的挑战，一是通用的匹配策略在注册参数空间中通常是非凸的，而通用最优准则在这种非凸问题上表现不好；二是通用匹配策略无法保证图像很好的对齐，容易受到噪声、振动、光照等因素的影响，导致注册精度无法保证。

有鉴于此，为了保证AR系统中的三维图像注册精度，需要对现有的三维图像注册方式进行改进，以提高三维图像注册的精度。

发明内容

本发明所要解决的技术问题是现有AR系统中，三维图像注册的精度无法保证的问题。

为了解决上述技术问题，本发明所采用的技术方案是提供一种用于AR系统的三维图像注册方法，包括以下步骤：

步骤S10、构建用于三维图像注册的数学模型，使用4×4齐次转换矩阵T_g表示T_g×I_f能够和I_r对齐时的变换矩阵，I_r表示参考图像，I_f表示需要注册到I_r的随机的注册图像；

步骤S20、构建出进行深度强化学习所需要的关键参数模型，用于得到注册图像对齐到参考图像的最佳动作的“估计”；

步骤S30、搭建出用于深度强化学习的卷积神经网络；

步骤S40、对样本图像进行卷积神经网络训练，该训练采用金字塔式策略，生成两种网络模型，分别用于训练粗对齐网络模型和精对齐网络模型；

步骤S50、将现场图像和目标图像分别输入到训练好的卷积神经网络中，利用关键参数模型和两种网络模型分别进行粗对齐和精对齐处理，完成三维图像注册。

在上述方法中，

用于三维图像注册的数学模型表示为：

其中：参数t_x,t_y,t_z表示三维图像沿x、y、z轴的平移量,θ_x,θ_y,θ_z表示三维图像沿x、y、z轴的旋转角度。

在上述方法中，所述卷积神经网络的结构包括：三个卷积层、三个全连接层以及一个池化层，按照第一卷积层、第二卷积层、池化层、第三卷积层、第一全连接层、第二全连接层和第三全连接层的顺序进行排列。

在上述方法中，在步骤S50中，所述卷积神经网络的输入参数为带标记的图像对，输出参数为12个可能的动作集合。

在上述方法中，在步骤S40中，使用分辨率低、视场角大的图像对训练粗对齐网络模型；使用分辨率高、视场角小的图像对训练精对齐网络模型。

在上述方法中，

所述关键参数模型包括：

最佳动作估计函数模型Q_t(s_t,a_t)＝max_τE[r_t+γr_t+1+γ²r_t+2+…|s_t,a_t,τ]，其中，s_t为t时刻三维图像的状态；a_t为t时刻执行对齐的动作；τ为此时三维图像注册的策略，可表示为a_t＝τ(s_t)；r表示不同时刻执行对齐动作的反馈值；γ表示折扣系数，0＜γ＜1；

变换间最小距离函数模型其中，D(T_g,T)表示两种变换T和T_g之间的距离，定义为T_g×T^-1的6个参数的L2范数，该6个参数是三维注册数学模型中的参数t_x,t_y,t_z,θ_x,θ_y,θ_z，其中，两种变换指的是训练循环过程中得到的变换T和真实变换T_g，通过不断调整这两种变换之间的差距，来得到与真实变换差异最小的变换矩阵；

动作的及时反馈函数模型r(s_t,a_t)＝D(T_g,T_t)-D(T_g,a_t×T_t)；

损失函数模型其中，y_i(d_k)是卷积神经网络的第i个输出，对应在M个训练样本中的第k个样本，表示关于动作a_t的动作反馈值Q_t(s_t,a_t)的最大值，ε表示新的变换T与真实变换T_g的距离误差容限。

在上述方法中，其特征在于，步骤S20具体包括以下步骤：

步骤S211、构建出最佳动作估计函数模型；

步骤S212、定义出变换间最小距离函数模型；

步骤S213、得出动作的及时反馈函数模型；

步骤S214、整理出损失函数模型。

在上述方法中，相应的对齐处理中，先进行粗对齐，再进行精对齐。

在上述方法中，步骤S50具体包括以下步骤：

步骤S511、输入图像；

步骤S512、执行粗对齐处理；

步骤S513、判断粗对齐是否成功，如果粗对齐成功，则转步骤S514，否则转步骤S512；

步骤S514、执行精对齐处理；

步骤S515、判断精对齐是否成功，如果成功则转步骤S516，否则转步骤S514；

步骤S516、完成三维图像注册。

本发明对现有AR系统中三维图像注册的方式进行了改进，采用了基于深度强化学习的三维图像注册策略，不同于一次映射计算出最佳的三维图像注册参数，而是将三维图像注册问题定义为实现图像对齐与操作的一系列连续动作的过程；在有限的解决方案中寻找最佳动作去提高对齐的效果，能够确保找到全局最优的对齐参数，使得三维图像注册的精度得以保证。

另外，为了提高三维图像注册的精度，同时为了降低网络学习和代理训练的时间，采用金字塔式的训练策略，对输入的图像对进行有针对性的降采样处理，可以分别训练出用于粗对齐和精对齐的两个网络模型，该训练策略在保证了三维图像注册稳定性和精度的同时，还显著的提高了三维图像注册的效率。

附图说明

图1为本发明提供的一种用于AR系统的三维图像注册方法的流程图；

图2为本发明具体实施例中步骤S20的具体流程图；

图3为本发明具体实施例中步骤S50的具体流程图。

具体实施方式

本发明提供了一种用于AR系统的三维图像注册方法，能够保证在AR系统中三维图像注册的精度，还能提高三维图像注册的效率。下面结合说明书附图和具体实施例对本发明做出详细说明。

具体实施例1。

如图1所示，本发明具体实施例1提供的用于AR系统的三维图像注册方法包括以下步骤：

步骤S10、构建三维图像注册的数学模型T(t_x,t_y,t_z,θ_x,θ_y,θ_z)：

其中：参数t_x,t_y,t_z表示三维图像沿x、y、z轴的平移量,θ_x,θ_y,θ_z表示三维图像沿x、y、z轴的旋转角度；

数学模型的建立依据如下：

令I_r表示参考图像或目标图像，I_f表示需要注册到I_r的随机图像(注册图像)，则T_g为一个4×4的齐次转换矩阵，表示需要估计的变换矩阵(也就是实现3D图像注册的直接手段)，该数学模型的目的是获得T_g×I_f(注册图像)能够和I_r(参考图像)对齐时的变换矩阵T_g。

步骤S20、构建出进行深度强化学习(Deep Reinforcement Learning，DRL)所需要的关键参数模型，用于得到注册图像对齐到注册图像的最佳动作的“估计”。

传统的强化学习是通过一个智能代理去执行一系列动作，并观察环境产生的反馈好坏来修正动作的执行过程；而本发明提出的深度强化学习则是使用深度学习的方法得到最佳动作的“估计”。

用于深度强化学习的关键参数模型包括：最佳动作估计函数模型，变换间最小距离函数模型，动作的及时反馈函数模型和损失函数模型等。

步骤S30、搭建出用于深度强化学习的卷积神经网络。

本发明使用的卷积神经网络采用了3个卷积层、3个全连接层以及1个池化层来实现，其中，卷积神经网络的结构按照第一卷积层、第二卷积层、池化层、第三卷积层、第一全连接层、第二全连接层和第三全连接层的顺序进行排列。

深度强化学习对卷积神经网络的每一层处理可以理解为是对上一层输出的进一步特征提取，通过不断的提取，得到输入图像的多维特征，用来衡量输入的三维图像与参考图像之间的注册状态。

在卷积神经网络中训练样本图像时，输入参数为带标记的注册图像对，输出参数为12个可能的动作集合，即动作数据集，包括注册图像相对于参考图像沿x、y、z轴的正、负向平移,沿x、y、z轴顺时针、逆时针旋转。

步骤S40、对样本图像进行卷积神经网络训练，该训练采用金字塔式策略，生成两种网络模型，分别用于训练粗对齐网络模型和精对齐网络模型。

以上的两种网络模型完全相同，均对输入图像进行了降采样处理，但两个输入图像的分辨率和视场角均不同，具体的，分辨率低但视场角大的用于训练粗对齐网络模型，分辨率高但视场角小的用于训练精对齐网络模型。

例如，获取的原始训练图像大小为1280×960像素，视场角为45度，在降采样处理后，用于粗对齐的训练数据集分辨率为320×240像素，对应的视场角不变；而用于精度齐的训练集，视场角会以±50的变化不断降低，原始图像对应裁剪，从而得到裁剪后高分辨率的图像，可以认为相对分辨率保持不变。

第一个卷积神经网络(粗对齐网络)训练出的网络模型用作对图像对进行粗对齐，采用低分辨率但大视场角的降采样数据，帮助代理对原始图像对的整体结构进行理解，从而有能力实现稳定的目标对齐，避免陷入局部最优。

第二个卷积神经网络(精对齐网络)训练出的网络模型用作对图像对进行精对齐，采用高分辨率但视场角受限的图像数据集，在粗对齐的基础上，提高目标对齐的精度。

步骤S50、将实际拍摄的现场图像和目标图像分别输入到步骤S40训练好的卷积神经网络中，利用关键参数模型和两种网络模型分别进行粗对齐和精对齐处理，完成三维图像注册。

具体地，该步骤中，将实际拍摄的现场图像(实拍图像)与参考图像(事先准备好的目标图像)分别输入到粗对齐网络中进行粗对齐，通过粗对齐处理，初步对齐两幅图像，计算出初步对齐之后两幅图像的重叠区域，提取出重叠区域的中心点，即为感兴趣区域的中心点，感兴趣区域的作用是提取图像对齐时贡献最大的图像区域，并通过感兴趣区域的中心点，快速锁定感兴趣区域。

将感兴趣区域在高分辨率的图像数据中提取出来，输入到精对齐网络模型中进行精对齐处理，最终获得现场图像到目标图像的4×4的齐次转换矩阵T(t_x,t_y,t_z,θ_x,θ_y,θ_z)，完成三维注册。

本发明采用的基于深度强化学习的三维图像注册策略，将三维图像注册问题定义为实现图像对齐操作的一系列连续动作的过程，其中采用金字塔式的训练策略，训练出用于粗对齐和精对齐的两个网络模型，在保证了三维图像注册稳定性和精度的同时，还显著的提高了三维图像注册的效率。

以上介绍的是本发明的基本实现方法，在上述方法中，某些步骤还需要进一步地细化，以完善本发明的具体实现过程。

具体实施例2。

本具体实施例2是对步骤S20中构建四个关键参数模型的具体细化，从而构建出了深度学习所需要的动作估计函数模型以及训练时需要的关键参数模型。

如图2所示，在本实施例中，步骤S20具体包括以下步骤：

步骤S211、构建出最佳动作估计函数模型；

步骤S212、定义出变换间最小距离函数模型；

步骤S213、得出动作的及时反馈函数模型；

步骤S214、整理出损失函数模型。

三维图像注册的核心问题是，寻找到一种最佳动作执行策略去指挥智能代理进行决断。

本发明，首先根据贝尔曼方程得到最佳动作估计函数模型：

Q_t(s_t,a_t)＝max_τE[r_t+γr_t+1+γ²r_t+2+…|s_t,a_t,τ]

其中：

s_t为t时刻三维图像的状态；a_t为t时刻执行对齐的动作；τ为此时三维图像注册的策略，可表示为a_t＝τ(s_t)；r表示不同时刻执行对齐动作的反馈值，不同时刻动作的反馈值对当前状态的影响是不一样的；γ表示折扣系数(取值范围为0～1，即0＜γ＜1)。

通过上述最佳动作估计函数估计注册(对齐)时每一步的最佳动作，然后不断进行循环，直到Q值收敛到最优，则初步达到对齐效果。然而，在深度强化学习中，如果采用传统的探索(也就是没有指导的探索)方法训练智能代理，则，最佳动作估计函数模型中Q值初始状态是随机产生的，导致较低的训练效率。

为此，本发明采用了变换间最小距离函数模型，提出了一种“贪婪监督”方法来训练智能代理，这种方法能模仿人类高效智能地进行两个三维图像的注册。该方法中，将最佳的动作定义为：使得新的变换T＝a_t×Tt(动作a_t后下一时刻的变换)和真实变换T_g之间距离最小，从而得到变换间最小距离函数模型如下：

其中：D(T_g,T)表示两种变换T和T_g之间的距离，定义为T_g*T-¹的6个参数的L2范数，该6个参数是三维注册数学模型中的参数t_x,t_y,t_z,θ_x,θ_y,θ_z，其中，两种变换指的是训练循环过程中得到的新的变换T和真实变换T_g，通过不断调整这两种变换之间的差距，来得到与真实变换差异最小的变换矩阵。

T＝a_t×T_t，T_t表示t时刻的变换。

如果存在超过一个动作导致同样的最小距离，那么这些动作中的任意一个都应有同样的可能性。

为了不失一般性，代理允许的变换参数空间范围为t_x,t_y∈(-30mm,30mm)，t_z∈(-150mm,150mm)，θ_x,θ_y,θ_z∈(-300,300)，对应的是两幅注册图片最大可能没对齐的范围。

假设智能代理允许沿着变换动作之间最小距离函数模型中的训练路径，执行足够多的步骤达到正确的对齐结果,则，动作a_t的及时反馈r(s_t,at)即为动作的及时反馈函数模型，动作的及时反馈函数模型如下：

r(s_t,a_t)＝D(T_g,T_t)-D(T_g,a_t×T_t)。

当与T_g的距离在误差容限ε＝0.5以内时，就可以认为达到了正确的变换关系，此时，代理收到的奖励反馈R＝10。如果代理允许在6个变换参数空间中以步长为1做连续的动作，即，唯一约束为||v_t+1-v_t||₂＝1，那么使用公式计算的就是关于动作a_t的动作反馈值Q_t(s_t,a_t)的最大值，ε表示新的变换T与真实变换T_g的距离误差容限。

使用卷积神经网络去表示中的Q，当输入为当前有差异的图片d_t，输出为12个可能的动作集合，则损失函数模型如下：

上式中，y_i(d_k)是卷积神经网络的第i个输出，对应在M个训练样本中的第k个样本。

为了进一步提高三维图像注册的效率，本发明还可以对步骤S50进行进一步的优化形成具体实施例3。

具体实施例3。

如图3所示，在本实施例中，步骤S50具体包括以下步骤：

步骤S511、输入图像；

步骤S512、执行粗对齐处理；

步骤S514、执行精对齐处理；

步骤S516、完成三维图像注册。

从粗对齐的最后一个动作位置开始进行精对齐，首先经过粗对齐，再经过精对齐可快速收敛得到当前图像的三维注册结果，逐步提高了本发明中图像的三维注册精度及效率，与现有技术相比，具有更好的技术效果，能够更好地体现本发明的技术优势。

本发明并不局限于上述最佳实施方式，任何人应该得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种用于AR系统的三维图像注册方法，其特征在于，包括以下步骤：

步骤S30、搭建出用于深度强化学习的卷积神经网络；

步骤S50、将现场图像和目标图像分别输入到训练好的卷积神经网络中，利用关键参数模型和两种网络模型分别进行粗对齐和精对齐处理，完成三维图像注册；

所述关键参数模型包括：

变换间最小距离函数模型其中，D(T_g,T)表示两种变换T和T_g之间的距离，定义为T_g×T^-1的6个参数的L2范数，该6个参数是三维注册数学模型中的参数t_x,t_y,t_z,θ_x,θ_y,θ_z，其中，两种变换指的是训练循环过程中得到的新的变换T和真实变换T_g，T＝a_t×T_t,通过不断调整这两种变换之间的差距，来得到与真实变换差异最小的变换矩阵；

动作的及时反馈函数模型r(s_t,a_t)＝D(T_g,T_t)-D(T_g,a_t×T_t)；

损失函数模型其中，y_i(d_k)是卷积神经网络的第i个输出，对应在M个训练样本中的第k个样本，表示关于动作a_t的动作反馈值Q_t(s_t,a_t)的最大值，ε表示新的变换T与真实变换T_g的距离误差容限；

步骤S50具体包括以下步骤：

步骤S511、输入图像；

步骤S512、执行粗对齐处理；

步骤S514、执行精对齐处理；

步骤S516、完成三维图像注册。

2.根据权利要求1所述的方法，其特征在于，用于三维图像注册的数学模型表示为：

3.根据权利要求1所述的方法，其特征在于，所述卷积神经网络的结构包括：三个卷积层、三个全连接层以及一个池化层，按照第一卷积层、第二卷积层、池化层、第三卷积层、第一全连接层、第二全连接层和第三全连接层的顺序进行排列。

4.根据权利要求1所述的方法，其特征在于，在步骤S50中，所述卷积神经网络的输入参数为带标记的图像对，输出参数为12个可能的动作集合。

5.根据权利要求1所述的方法，其特征在于，在步骤S40中，使用分辨率低、视场角大的图像对训练粗对齐网络模型；使用分辨率高、视场角小的图像对训练精对齐网络模型。

6.根据权利要求1所述的方法，其特征在于，步骤S20具体包括以下步骤：

步骤S211、构建出最佳动作估计函数模型；

步骤S212、定义出变换间最小距离函数模型；

步骤S213、得出动作的及时反馈函数模型；

步骤S214、整理出损失函数模型。