CN114943802A

CN114943802A - 一种基于深度学习与增强现实的知识引导外科手术交互方法

Info

Publication number: CN114943802A
Application number: CN202210523100.7A
Authority: CN
Inventors: 王鸿鹏; 陈建韧; 王雨轩; 韩建达; 许丽
Original assignee: Shenzhen Research Institute Of Nankai University
Current assignee: Shenzhen Research Institute Of Nankai University
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-26

Abstract

本发明提供一种基于深度学习与增强现实的知识引导外科手术交互方法，该方法包括以下步骤：设置一个双目相机，对其完成标定操作后，用于拍摄现实空间中的人工标记与相关医学组织；基于深度学习算法，对双目相机获取的术中图像进行语义分割，得到相关医学组织的预测图；通过最小二乘法，对双目相机左右目镜相应的预测图进行三维重建；将三维重建模型导入到Unity，基于现实空间中人工标记与医学组织的位置关系，在Unity建立人工标记与虚拟模型间的位置，进行渲染操作后，将其注册到增强现实空间内。本发明通过将深度学习与增强现实两大技术交互结合，从而实现知识引导外科手术操作的目的，为外科医生手术操作提供了直接有效的帮助。

Description

一种基于深度学习与增强现实的知识引导外科手术交互方法

技术领域

本发明属于计算机视觉领域，虚拟仿真领域，尤其涉及一种基于深度学习与增强现实的知识引导外科手术交互方法。

背景技术

近年来，外科手术的知识引导技术具有至关重要的意义，手术知识引导技术是通过术前-术中医学影像配准结合，为医生提供合理的术前建议，或通过增强现实技术，将术前数据映射到真实场景中，进而提供术中知识实时显示。

目前，增强现实技术已在医学领域得到广泛应用，但由于术前数据多为CT，MRI形式，对于一些无具体结构的医学组织，如人工耳蜗植入术中，面神经隐窝作为植入电极的重要通道，在CT和MRI影像上无法获得其形态数据。诸如此类医学结构，充分利用其在术中实时场景下获得的影像数据，通过深度学习方式得到此类医学组织的形态数据，将其三维重建后，注册到增强现实空间中，进而通过增强现实技术，实现术中知识引导。

因此，提出一种基于深度学习与增强现实的知识引导外科手术交互方法，为使用者提供准确的术中知识引导，通过佩戴增强现实眼镜，便可观察到相关组织的语义影像，为手术操作提供辅助。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于深度学习与增强现实的知识引导外科手术交互方法，旨在将深度学习与增强现实技术结合，为医生提供知识引导外科手术的交互方法。

本发明的目的是通过以下技术方案来实现的：

一种基于深度学习与增强现实的知识引导外科手术交互方法，包括以下几个步骤：

步骤A：通过已标定的双目相机拍摄术中相关医学组织的实时影像，使用Label me标注软件进行语义标注，再利用Vision Transformer深度学习算法，对相关医学组织进行语义分割，分别得到左右目镜下的语义分割结果图；

步骤B：结合标定过程中获得的双目相机内外参数，通过空间中任一点在两个摄像机中分别成像，得到该点在两个图像中的对应坐标，通过建立以该点的世界坐标为未知数的4个线性方程，可以用最小二乘法求解得该点的世界坐标，利用Matlab软件完成双目视觉下的三维重建；

步骤C：步骤C：将重建后的三维模型导入到实时开发平台Unity中，通过刚性配准算法使人工标记与三维模型之间与现实环境中相对位置一致，将其注册到增强现实眼镜Hololens2中，可通过增强现实眼镜观测到相应组织。

进一步的，所述步骤A包括以下子步骤：

A1：将双目相机放置在合适位置，以保证相关医学组织位于目镜视野内的方式进行拍照采样，获得的图像传输至图形工作站。

A2:通过标注软件Labelme，针对某一医学组织，如面神经隐窝，分别对双目相机获得的成对医学影像进行标注，得到含有该组织语义信息的标签图。

A3：将原图数据分为测试集与训练集，其中，训练集包含原图与标签图，测试集仅为原图，测试集数据量与训练集数据量执笔约为3：1，在深度学习平台Tensorflow上搭建Vision Transformer算法，通过预训练调整算法参数，根据得到的预测效果，挑选最优结果图作为三维建模数据。

进一步的，所述步骤B包括以下子步骤：

B1：通过之前对双目相机标定获得的相机内外参数，假设某医学组织上的一点P在两个目镜C1与C2上的图像点p1与p2。即已知p1与p2为空间同一点P的对应点。双目相机左右目镜的投影矩阵为M1和M2,于是有：

其中，(u1,v1,1)与(u2,v2,1)分别为P1与P2点在各自图像中的图像齐次坐标；(X,Y,Z,1)为P点在世界坐标系下的齐次坐标；

为M_k的第i行第j列元素。基于此式便可求出(X,Y,Z)的值。根据此原理在Matlab上编程实现三维重建，得到该医学组织的三维结构。

B2：将得到的三维模型注册到Unity中，可对其进行渲染操作，使其显现效果更佳。

进一步的，所述步骤C详细介绍如下：

根据Unity与Hololens2的数据传输协议，可将三位重建模型由Unity注册到Hololens2中，当在现实环境中识别到人工标记，便可在对应医学组织位置显示其虚拟模型。

本发明的优点和有益效果

本发明中利用语义分割预测图作为三维重建数据，能够弥补某些医学组织无法在传统医学影像如CT，MRI中显示，进而影响外科医生的判断与操作这一问题，且数据来源为术中实时拍摄获得，更具参考价值；

同时本发明中通过将增强现实技术与深度学习技术结合，为外科医生提供了一种可头戴增强现实眼镜实现术中知识引导的手术方式，将虚拟模型与外部现实结合，可让外科医生看到语义分割后的关键医学组织，为外科医生提供直接有效的知识引导。

附图说明

图1是本发明的总体框架图；

图2是本发明的总体框架效果图；

图3是模拟实验效果图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干的变形和改变。这些都属于本发明的保护范围。

实施例

为了解决上述问题，本发明提供种基于深度学习与增强现实的知识引导外科手术交互方法，该方法包括以下几个步骤：

步骤A：通过已标定的双目相机拍摄术中相关医学组织的实时影像，使用Label me标注软件进行语义标注，再利用Pyramid Vision Transformer深度学习算法，对相关医学组织进行语义分割，分别得到左右目镜下的语义分割结果图；

进一步的，所述步骤A包括以下子步骤：

A3：将原图数据分为测试集与训练集，其中，训练集包含原图与标签图，测试集仅为原图，测试集数据量与训练集数据量执笔约为3：1，在深度学习平台Tensorflow上搭建Pyramid Vision Transformer算法，通过预训练调整算法参数，根据得到的预测效果，挑选最优结果图作为三维建模数据。

进一步的，所述步骤B包括以下子步骤：

具体地：

进一步的，所述步骤C详细介绍如下：

本发明在现实空间中建立人工标记二维码与兔子模型，其中兔子用来模拟某医学组织，并将兔子对应的三位重建模型注册到Hololens2中，其实验效果如图3所示。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，由此，限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括至少一个该特征。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及等同物限定。

Claims

1.一种基于深度学习与增强现实的知识引导外科手术交互方法，其特征在于，该方法包括以下步骤：

步骤C：将重建后的三维模型导入到实时开发平台Unity中，通过刚性配准算法使人工标记与三维模型之间与现实环境中相对位置一致，将其注册到增强现实眼镜Hololens2中，可通过增强现实眼镜观测到相应组织。

进一步的，所述步骤A包括以下子步骤：

A3：将原图数据分为测试集与训练集，其中，训练集包含原图与标签图，测试集仅为原图，测试集数据量与训练集数据量执笔约为3：1，在深度学习平台Tensorflow上搭建VisionTransformer算法，通过预训练调整算法参数，根据得到的预测效果，挑选最优结果图作为三维建模数据。

进一步的，所述步骤B包括以下子步骤：

进一步的，所述步骤C详细介绍如下：

2.根据权利要求1所述的一种基于深度学习与增强现实的知识引导外科手术交互方法，其特征在于，将双目相机放置在合适位置，以保证相关医学组织位于目镜视野内的方式进行拍照采样，获得的图像传输至图形工作站。通过标注软件Labelme，针对某一医学组织，如面神经隐窝，分别对双目相机获得的成对医学影像进行标注，得到含有该组织语义信息的标签图。将原图数据分为测试集与训练集，其中，训练集包含原图与标签图，测试集仅为原图，测试集数据量与训练集数据量之比约为3：1，在深度学习平台Tensorflow上搭建Pyramid Vision Transformer语义分割算法，通过预训练调整算法参数，根据得到的预测效果，挑选最优结果图作为三维建模数据。

3.根据权利要求1所述的一种基于深度学习与增强现实的知识引导外科手术交互方法，其特征在于，通过之前对双目相机标定获得的相机内外参数，畸变矩阵，根据最小二乘法进行双目视觉下的三维重建，通过在Matlab上编程实现三维重建，得到相关医学组织的三维结构。将得到的三维模型注册到Unity中，可对其进行渲染操作，使其显现效果更佳。

4.根据权利要求1所述的一种基于深度学习与增强现实的知识引导外科手术交互方法，其特征在于，通过现实中某医学组织与人工标记的坐标位置关系，通过刚性配准算法，在Unity中建立相应的虚拟人工标记与医学组织三维重建模型，将该模型注册到增强现实眼镜Hololens2中，实现术中该医学组织的实时观测，达到术中知识引导的目的。