CN114519742A

CN114519742A - 基于单目光学摄影的三维目标自动定位定姿方法及其应用

Info

Publication number: CN114519742A
Application number: CN202210131591.0A
Authority: CN
Inventors: 杨志; 刘文海
Original assignee: Capital Medical University
Current assignee: Capital Medical University
Priority date: 2022-02-10
Filing date: 2022-02-14
Publication date: 2022-05-20

Abstract

本发明提供了基于单目光学摄影的三维目标自动定位定姿方法，包括以下步骤：构建目标物体的可视化的三维模型；在世界坐标系中预设三维模型和相机的位置，并以此建立世界坐标系与物体坐标系、相机坐标系的坐标系变换关系；随机改变虚拟场景中的相机或者三维模型的空间位置，并记录相应的影像和空间位置变换信息；对机器学习模型进行训练，获得位姿预测模型；目标物体的实物单目照片输入位姿预测模型，位姿预测模型输出对应的目标物体或相机相对于预设位置的坐标变换值。本发明可以对传统的单目视觉成像设备所拍摄到的目标物体进行精准的空间位置和姿态的评估，无需增加额外的标记物或相机，或实地的对目标物体进行任何校准和处理。

Description

基于单目光学摄影的三维目标自动定位定姿方法及其应用

技术领域

本发明属于视觉光学导航技术领域，特别涉及一种基于单目光学摄影的三维目标自动定位定姿方法及其应用。

背景技术

目前，导航系统的应用已遍布我们生活各个领域。例如，工业领域我们利用导航系统来对机器手臂进行定位和控制；在医疗领域，导航系统可以为医生提供当前环境中目标器械相对病人病灶组织的精准定位。

市场中应用最广的导航系统主要包括三类，多目视觉光学导航、电磁导航和惯性测量单元。在上述三种导航系统中，光学导航的在医疗及工业领域应用最为广泛，最主要的原因是由于其极高的定位精度，其次由于在复杂的应用环境中我们不可避免的会有铁磁性物体在周围，这使得电磁导航的应用得到限制；另外由于惯性测量单元只能反馈相对位置和姿态，这也大大限制其在专业领域的应用。然而目前光学导航系统的部署极其复杂，需要大量的校准等步骤才能满足高精度的需要，同时我们还需额外引入感光元件作为标记物来定位目标物体，额外的定位标记物也需要进行复杂的校准，标记物的固定也需要谨慎的考虑。这些是目前在工业或医疗领域中光学导航系统的主要限制。特别是在医疗手术过程中，如若我们需要对病人的肢体进行标记，由于皮肤的弹性和表面毛发或油脂等限制，我们通常不可避免的需要对病人以有创伤的方式进行标记物的固定，例如固定于骨表面等。此外设备的造价高昂，通常情况我们需要两台相机来对目标空间进行识别，但在特定应用下，我们甚至需要多于两台相机的情况，这使得起成本大大提高，同时多台相机舍得系统运算复杂度也随之增高。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于单目光学摄影的三维目标自动定位定姿方法及其应用，部署前提是需要获得目标物体的三维模型进行可视化的显示及采样，然后利用人工智能领域机器学习技术，包括但不限于深度学习方法，来对目标物体三维模型的采样进行学习和训练，训练好的模型可以对传统的单目视觉成像设备所拍摄到的目标物体进行精准的空间位置和姿态的评估，无需增加额外的标记物或实地的对目标物体进行任何校准和处理。应用领域可以广泛涉及到工业、医疗、农业或者航天业等。

本发明采用的技术方案是：一种基于单目光学摄影的三维目标自动定位定姿方法，包括以下步骤：

S1：构建目标物体的可视化的三维模型；三维模型的颜色与形状与目标物体保持一致。

在工业领域中，对设备零件进行导航时，设备零件的CAD三维设计模型比较容易获得；在航天领域，通常通过参考天体模型数据库获得三维模型；在医疗领域，三维模型可以从计算机断层图像、磁共振图像等体图像数据中对目标组织或器官进行分割，再对分割结果进行三维体图像绘制来获取。

S2：建立世界坐标系w、物体坐标系o和相机坐标系c，在世界坐标系w中预设三维模型和相机的位置，并以此建立世界坐标系w与物体坐标系o、相机坐标系c的坐标系变换关系，所述坐标系变换关系采用4X4齐次矩阵来描述，所述相机的数量为一个。

三维模型在可视化场景中有着其独有的坐标系，记为物体坐标系o。相机为传统单目视觉成像系统，以相机作为原点的坐标系记为相机坐标系c。相机的视角决定了单目摄影所得到的物体形态特征，同时相机的空间位置与远近决定了目标物体在单目摄影图像中的大小和位置。

任意时刻，本方法能够反馈当前系统中目标物体的物体坐标系到世界坐标系的变换矩阵，从而可以获得目标物体的相对空间位置。“相对”所指的是相对于世界坐标系的位置；另外当利用矩阵变换的方式得到从一个物体到另一个物体之间的坐标变换矩阵，“相对”也可以用来描述物体与物体之间的位置和姿态差异。空间坐标变换矩阵，记为

表述为从物体坐标系o到世界坐标系w之间的空间变换。

通常将目标物体的中心点或目标物体的关键兴趣点作为世界坐标系的原点，世界坐标系的方位与目标物体的方位保持一致，那么世界坐标系与目标物体的坐标系之间的变换关系仅为位移变换，但为了保持系统描述量的一致性，我们仍将变换关系用4X4齐次矩阵来描述，记为

相机在可视化场景中也是一个重要参照物，我们记相机的空间位置和角度到空间世界坐标系的变换为

S3：通过计算机可视化技术，根据三维模型和相机在世界坐标系中的预设位置构建可视化的虚拟场景，随机改变虚拟场景中的相机或者三维模型的空间位置，即相机或者三维模型的姿态和位置，并记录相应的影像和空间位置变换信息，生成训练数据。

根据三维模型及其使用场景需要对机器学习模型进行训练。根据三维模型使用场景，确定三维模型或相机中的哪一个进行位置变换，另一个则不改变位置。然后，对目标物体在三维可视化空间中进行二维摄影图像的采样。事先设定好采样数量N，那么随机生成N组的位移和角度对，组合成4X4齐次矩阵。将矩阵施加到目标物体上，变换后的目标物体我们记为o₁，N组随机齐次矩阵代表原物体o到新位置的物体o₁的变换矩阵

我们可以进一步推断虚拟相机到新位置的目标物体的变换矩阵为：

在将每个随机变换矩阵施加到物体上后，我们同时保存当前三维空间中的二维摄影画面，一个随机矩阵加对应的图像信息组成后面训练数据的数据单元，即我们进行采样后会得到N组图像和变换矩阵对。

S4：利用步骤S3的训练数据，对机器学习模型进行训练，获得位姿预测模型。

预先搭建好机器学习模型，模型选用能够精确采集到图像特征信息的深度学习网络，进一步我们利用神经网络进行回归学习，我们模型的输出变量描述目标物体6自由度的空间位置和姿态信息。位移的描述变量用传统的距离，空间方位的描述方式包括但不限于欧拉角、旋转矩阵以及四元数等。实验中我们选取四元数来对角度信息进行描述。

我们将损失函数用系统输出变量的概率模型进行描述。对于回归问题，我们假设模型输出的结果，即位移和空间角度，呈高斯分布：

p(y|f(x，w))＝N(f(x，w)，σ²)，

其中我们的深度学习网络模型定义为f(x，w)，y为模型的输出变量，σ²描述我们系统输入中信息的噪声程度，对于位移和空间角度，其相互独立且具有相同的分布，我们的系统输出的概率分布可以分别描述为：

p(t，r|f(x，w))＝p(t|f(x，w))*p(r|f(x，w))，

其中t，r分别描述位移和方位变量。对于回归问题，我们需要使系统输出的概率分布最大化，即利用极大似然估计来对系统的模型参数进行优化。将高斯分布带入上述公式继续推倒；

由于我们需要求取此概率取最大时的模型参数，我们对函数取对数：

将取最大值的优化方式变为求取最小值时的模型参数：

对于求取位移和角度，我们将两变量分别带入上述目标函数：

上述公式为我们所定义的目标损失函数，其中σ_t描述在输入变量信息中位移信息的噪声程度，σ_r描述在输入变量信息中空间方位信息的噪声程度。

利用数值优化方法对求取损失函数最小值时的系统模型参数，得到我们使得模型对训练数据识别推断最优化的程度。

在训练后，我们利用测试数据来对模型的误差进行分析，分别分析得出位移和角度平均误差及标准差。我们的误差需求由不同的应用场景来决定，通常位移误差在毫米级，方位角度误差在10°以内。若当前模型的误差不满足要求，我们可以对模型进行进一步训练，在当前迭代的数量进一步迭代优化。

S5：通过单目视觉摄影设备实时拍摄目标物体，获得单目照片。步骤S1中的三维模型是依照此目标物体构建的。

S6：将步骤S5摄取的单目照片输入步骤S4训练获得的位姿预测模型，位姿预测模型结合步骤S2的坐标系变换关系进行计算，输出单目照片拍摄时对应的目标物体或相机相对于预设位置的坐标变换值。

在单目相机获取新的图像后，我们将图像作为输入变量赋给模型，通过模型推断，我们得到当前图像中目标物体的相对位置信息，即虚拟相机到目标物体的变换矩阵

在传统应用场景中，我们通常会固定相机，那么相机的空间信息为已知量

通过空间逆变换，我们可以推出目标物体相对我们预设的世界坐标系的空间位置

进一步的，位姿预测模型输出的坐标变换值为位移和角度的变化值。

具体的，位姿预测模型的输出为x、y、z方向的位移，以及四个四元数所描述的方位角度值。

进一步的，步骤S3中，随机改变虚拟场景中的相机或者三维模型的空间位置时，只改变三维模型和相机其中之一的空间位置，三维模型和相机中的另一个的空间位置不改变。

进一步的，随机改变虚拟场景中的相机或者三维模型的空间位置前，预设三维模型和相机的角度变化范围及位置移动范围。

事先确定角度变化范围及位置移动范围是为了更有针对性的对导航任务进行模型的训练，同时确定有效范围进而减少误差。通常对于观测天体等任务来讲，角度范围会比较大，通常为±180度，位移范围较小，因为通常我们会将观测物体调整至望远镜的正中心。对于观测工业零件等类似任务，我们可以自定义有效角度和位移范围。对于医疗领域的应用，不同的手术，观测范围的区别较大。以关节镜手术举例说明，腔镜在冠状轴移动范围在±9.00mm，矢状轴移动范围在±6.00mm，竖直方向移动范围在±3.00mm，三轴的角度范围在±30°。

进一步的，步骤S3中的影像的背景、光线或三维模型表面纹理进行了变换。

在三维模型绘制场景中，物体背景对于精度的影响也比较大，因此我们利用大量随机图像来对背景图片进行更换，使得场景背景的特征因素大大削弱。类似的，光线或目标物体的表面纹理也会对系统精度造成影响，我们同样进行随机的光线或表面纹理变换，使得误差特征进一步减小。

进一步的，所述机器学习模型利用深度学习算法进行实现，在实现本专利中的机器学习模型方案时，我们选用深度学习模型，如GoogLeNet进行实现。

基于单目光学摄影的三维目标自动定位定姿方法的应用，上述方法应用于医疗光学视觉定位、工业领域、农业领域、民用场景和航天领域。

具体的，在应用场景中当目标物体固定，相机有位移或角度变化时，

步骤S3中，随机改变虚拟场景中的相机的空间位置，

步骤S6中，输出单目照片拍摄时对应的相机相对于预设位置的坐标变换值，应用于医疗光学视觉定位；

或者，在应用场景中当相机固定，但目标物体有位移或角度变化时，

步骤S3中，随机改变虚拟场景中的三维模型的空间位置，

步骤S6中，输出单目照片拍摄时对应的目标物体相对于预设位置的坐标变换值，

应用于工业领域、农业领域、民用场景和航天领域。

与现有技术相比，本发明所具有的有益效果是：

1.本发明提出的定位定姿方法相较于传统的导航方法，无需任何追踪标记原件，仅通过单目成像设备即可完成摄像系统的部署，甚至手机或USB网络摄像头也可用于本发明中作为图像采集硬件。本发明在工农航天医疗等领域中有着广泛的应用前景。

2.本发明采用前沿的人工智能领域的机器学习方法，为繁琐的传统导航应用设备提供一种更轻便简洁智能的替代方案。传统导航设备除需要追踪器件之外，还需要预先进行复杂的校准工作，校准精度决定了实际应用中的误差大小。对于本发明提出的方案，只要有目标物体的三维模型，单纯利用计算机仿真可视化，即可全自动的进行校准，并对模型进行训练，体现了专发明的简洁和智能。同时，本发明从一定程度上能够解决传统导航设备的固有问题。例如电磁导航设备需要周围隔离铁磁性物件，光学导航种标记物被遮挡导致导航失效等。在医疗领域，即便是对于将内窥镜深入腔体内等操作，本发明通过事先获取的医疗体图像在进行三维可视化显示并对模型进行训练，单目内窥镜导航也变得得心应手，但这通常对于传统光学导航设备是很具挑战性的，对于浅表的组织通常能胜任，但对于气管或肠道等，光学导航的可实施性基本上为零，但电磁导航对环境要求很高，对手术环境的部署也造成很大的挑战。

3.本发明利用实际物体的三维模型进行训练或利用先前训练好的同类目标物体导航模型进行迁移学习，迁移学习的目标物体也建议为实际物体的三维模型。由于训练目标和实际物体相同，那么模型对目标物体的特征具有个性化的高精度识别。同时，利用大量随机图像来对背景图片进行更换、进行随机的光线或表面纹理变换，使得误差特征进一步减小。尤其是对于医疗领域，可以针对每个病人的术前医疗图像数据来训练出只针对当前病人的个性化模型，这在手术过程中对与病人特殊的病灶组织或器官特征有着独特的极高导航精度。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例1的三维模型的示意图；

图3为本发明实施例1的训练的深度学习模型时随机获取的训练照片；

图4为本发明实施例1的深度学习模型的基本框架图；

图5为本发明实施例1的深度学习模型训练的迭代次数-损失函数图；

图6为本发明实施例1的深度学习模型训练的迭代次数-指数压缩的损失函数图；

图7为本发明实施例1的深度学习模型测试的迭代次数-损失函数图；

图8为本发明实施例1的深度学习模型测试的迭代次数-指数压缩的损失函数图；

图9为本发明实施例1的虚拟关节镜所观察到的实际图像；

图10为本发明实施例1的图9经深度学习模型计算得到的场景模型推断图；

图11为本发明实施例2的训练的深度学习模型时随机获取的训练照片；

图12为本发明实施例2的拍摄的魔方的实际图像；

图13为本发明实施例2的图12经深度学习模型计算得到的场景模型推断图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施例对本发明作详细说明。

实施例1

本发明的实施例提供了一种基于单目光学摄影的三维目标自动定位定姿方法，模拟膝盖关节镜微创手术的导航过程，本方法的流程图如图1所示，其包括以下步骤：

S1：利用预先分割好的MRI磁共振膝盖骨图像，运用体图像绘制技术绘制膝盖骨的可视化的三维模型，如图2所示，构建的三维模型的颜色与形状与目标物体尽量保持一致。

S2：建立世界坐标系w、物体坐标系o和相机坐标系c，在世界坐标系w中预设三维模型和相机的位置，并以此建立世界坐标系w与物体坐标系o、相机坐标系c的坐标系变换关系，所述坐标系变换关系采用4X4齐次矩阵来描述。

S3：本实施例使用在医疗领域，因此，膝盖骨在手术过程中不能移动的，需要改变位置的是相机。

生成训练数据：调整可视化的虚拟场景中相机的焦距、焦点和相机的位置，找到和手术过程中膝盖部位关节镜成像距离相近的方位，利用随机方位的方式改变相机的位置(膝盖骨的三维模型的位置不变)，进行数据的采集，得到训练数据虚拟和对应的空间位置变换信息。图3为其中三张训练图像，对应的训练数据为：图3(a)：0.606845，-7.37249,1.21555,0.989182，-0.0703508，-0.123949，-0.0347328；图3(b)：1.24536，-4.28226,6.71903,0.992819,0.010313，-0.0333187，-0.114433；图3(c)：-5.34458,8.66211，-4.01219,0.988757,0.0898499,0.1771,0.0239623。数字排列分别为X、Y、Z方向的位移以及qw、qx、qy、qz组成描述方位角的四元数。

本实施例中选用GoogLeNet模型作为深度学习模型。模型末端的线性全连接推断层从先前的1000个输出改为输出是7个浮点数的线性线性全连接层，其中7个浮点数输出分别为x,y,z方向的位移，以及四个四元数所描述的方位角度信息。此外，我们将7个输出变量中的四元数角度的四个浮点数再额外进行归一化的操作，确保四元数进行角度描述的有效性。模型的基本框架图如图4所示。

通过迭代优化，将模型收敛至我们预期的误差范围，模型的训练即收敛过程，如图5-图6所示。我们利用在准备训练数据的同时，单独分配出测试数据。在训练过程中，测试数据不应以任何形式暴露给模型。在训练后，我们利用测试数据来对模型的误差进行测试，模型的误差最终收敛至0.1附近，满足我们的部署要求，如图7-图8所示。

S5：在虚拟的手术过程中，截取关节镜所观察到的一个实际图像，如图9所示。

S6：将步骤S5截取的实际图像传输到满足部署要求的位姿预测模型中，对输入的实际图像进行计算，计算出内窥镜相机的X、Y、Z方向的位移和方位角的四元数，输出结果反馈到虚拟场景中，如图10所示，图中，长锥体为内窥镜相机的空间位置。我们可以观察到图9实际观察到的图像和图10场景中模型推断出的方位和角度是一致的，结果验证了本方法对微创手术内窥镜的导航有着准确的定位和定姿态意义。

在医疗领域，我们可以针对每个病人的术前医疗图像数据来训练出只针对当前病人的个性化三维模型。由于训练目标和实际物体相同，那么三维模型对目标物体的特征具有个性化的高精度识别。这在手术过程中对与病人特殊的病灶组织或器官特征有着独特的极高导航精度，更具个性化。

实施例2

本发明的实施例提供了一种基于单目光学摄影的三维目标自动定位定姿方法，采用四阶的魔方作为目标物体模拟工业领域的导航过程(航天等领域的导航过程与此相类似)，本方法的流程图如图1所示，其包括以下步骤：

S1：构建四阶的魔方作的可视化的三维模型，三维模型的颜色与形状与目标物体尽量保持一致。

S3：本实施例使用在工业领域，因此，相机无需改变位置，需要改变位置的是目标物体，即四阶的魔方的三维模型。根据三维模型和相机在世界坐标系中的预设位置构建可视化的虚拟场景，随机改变虚拟场景中的三维模型的空间位置，并记录相应的影像和空间位置变换信息，生成训练数据。

利用随机方位的方式改变三维模型的空间位置(姿态和位置)，进行数据的采集，并对于图像的背景进行了替换，得到训练数据图像和对应的空间位置变换信息。图11为其中三张训练图像，对应的训练数据为：图11(a)：1.88082,0.56129，-218.458,0.968082，-0.177238，-0.10169,0.145133；图11(b)：21.721，-38.6168，-238.182,0.976398，-0.0424975,0.177844，-0.114944；图11(c)：10.9786,15.1479，-230.552,0.963318，-0.139811,0.22532，-0.0412575。数字排列分别为X、Y、Z方向的位移以及qw、qx、qy、qz组成描述方位角的四元数。

本实施例同样选用GoogLeNet模型作为深度学习模型。模型末端的线性全连接推断层从先前的1000个输出改为输出是7个浮点数的线性线性全连接层，其中7个浮点数输出分别为x,y,z方向的位移，以及四个四元数所描述的方位角度信息。此外，我们将7个输出变量中的四元数角度的四个浮点数再额外进行归一化的操作，确保四元数进行角度描述的有效性。

采用实施例1的方式对深度学习模型进行训练和测试，模型的误差最终收敛至0.1附近。

S5：利用计算机摄像头拍摄魔方，对魔方进行移动或旋转。图12为计算机摄像头拍摄的一张魔方的图像。

S6：将步骤S5中计算机摄像头所拍摄的图像反馈到满足部署要求的位姿预测模型中对目标物体的位移和方位角进行推断，输出的坐标变换反馈到虚拟场景中，即将位移和方位角的变换赋值到虚拟场景中的三维魔方模型中，得到的图像如图13所示。从验证结果中我们可以看到虚拟场景中魔方三维模型的变换趋势和图12中魔方实物运动的趋势相同，验证了模型推断的位移和方位角的准确性。

以上通过实施例对本发明进行了详细说明，但所述内容仅为本发明的示例性实施例，不能被认为用于限定本发明的实施范围。本发明的保护范围由权利要求书限定。凡利用本发明所述的技术方案，或本领域的技术人员在本发明技术方案的启发下，在本发明的实质和保护范围内，设计出类似的技术方案而达到上述技术效果的，或者对申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖保护范围之内。

Claims

1.基于单目光学摄影的三维目标自动定位定姿方法，其特征在于：包括以下步骤：

S1：构建目标物体的可视化的三维模型；

S2：建立世界坐标系、物体坐标系和相机坐标系，在世界坐标系中预设三维模型和相机的位置，并以此建立世界坐标系与物体坐标系、相机坐标系的坐标系变换关系，所述坐标系变换关系采用4X4齐次矩阵来描述，所述相机的数量为一个；

S3：根据三维模型和相机在世界坐标系中的预设位置构建可视化的虚拟场景，随机改变虚拟场景中的相机或者三维模型的空间位置，并记录相应的影像和空间位置变换信息，生成训练数据；

S4：利用步骤S3的训练数据，对机器学习模型进行训练，获得位姿预测模型；

S5：通过单目视觉摄影设备实时拍摄目标物体，获得单目照片；

2.如权利要求1所述的基于单目光学摄影的三维目标自动定位定姿方法，其特征在于：位姿预测模型输出的坐标变换值为位移和角度的变化值。

3.如权利要求2所述的基于单目光学摄影的三维目标自动定位定姿方法，其特征在于：位姿预测模型的输出为x、y、z方向的位移，以及四个四元数所描述的方位角度值。

4.如权利要求1所述的基于单目光学摄影的三维目标自动定位定姿方法，其特征在于：步骤S3中，随机改变虚拟场景中的相机或者三维模型的空间位置时，只改变三维模型和相机其中之一的空间位置，三维模型和相机中的另一个的空间位置不改变。

5.如权利要求4所述的基于单目光学摄影的三维目标自动定位定姿方法，其特征在于：随机改变虚拟场景中的相机或者三维模型的空间位置前，预设三维模型和相机的角度变化范围及位置移动范围。

6.如权利要求4所述的基于单目光学摄影的三维目标自动定位定姿方法，其特征在于：步骤S3中的影像的背景、光线或三维模型表面纹理进行了变换。

7.如权利要求1所述的基于单目光学摄影的三维目标自动定位定姿方法，其特征在于：所述机器学习模型利用深度学习算法进行实现。

8.权利要求1-7中任一基于单目光学摄影的三维目标自动定位定姿方法的应用，其特征在于：上述方法应用于医疗光学视觉定位，从而进行对手术器械或目标组织进行定位定姿操作。

9.权利要求1-7中任一基于单目光学摄影的三维目标自动定位定姿方法的应用，其特征在于：上述方法应用于工业领域、农业领域、民用场景和航天领域。

10.权利要求1-7中任一基于单目光学摄影的三维目标自动定位定姿方法的应用，其特征在于：

在应用场景中当目标物体固定，相机有位移或角度变化时，

步骤S3中，随机改变虚拟场景中的相机的空间位置，

步骤S6中，输出单目照片拍摄时对应的相机相对于预设位置的坐标变换值，

应用于医疗光学视觉定位；

步骤S3中，随机改变虚拟场景中的三维模型的空间位置，

步骤S6中，输出单目照片拍摄时对应的目标物体相对于预设位置的坐标变换值，应用于工业领域、农业领域、民用场景和航天领域。