CN114943802A - 一种基于深度学习与增强现实的知识引导外科手术交互方法 - Google Patents
一种基于深度学习与增强现实的知识引导外科手术交互方法 Download PDFInfo
- Publication number
- CN114943802A CN114943802A CN202210523100.7A CN202210523100A CN114943802A CN 114943802 A CN114943802 A CN 114943802A CN 202210523100 A CN202210523100 A CN 202210523100A CN 114943802 A CN114943802 A CN 114943802A
- Authority
- CN
- China
- Prior art keywords
- augmented reality
- medical
- deep learning
- dimensional
- binocular camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种基于深度学习与增强现实的知识引导外科手术交互方法,该方法包括以下步骤:设置一个双目相机,对其完成标定操作后,用于拍摄现实空间中的人工标记与相关医学组织;基于深度学习算法,对双目相机获取的术中图像进行语义分割,得到相关医学组织的预测图;通过最小二乘法,对双目相机左右目镜相应的预测图进行三维重建;将三维重建模型导入到Unity,基于现实空间中人工标记与医学组织的位置关系,在Unity建立人工标记与虚拟模型间的位置,进行渲染操作后,将其注册到增强现实空间内。本发明通过将深度学习与增强现实两大技术交互结合,从而实现知识引导外科手术操作的目的,为外科医生手术操作提供了直接有效的帮助。
Description
技术领域
本发明属于计算机视觉领域,虚拟仿真领域,尤其涉及一种基于深度学习与增强现实的知识引导外科手术交互方法。
背景技术
近年来,外科手术的知识引导技术具有至关重要的意义,手术知识引导技术是通过术前-术中医学影像配准结合,为医生提供合理的术前建议,或通过增强现实技术,将术前数据映射到真实场景中,进而提供术中知识实时显示。
目前,增强现实技术已在医学领域得到广泛应用,但由于术前数据多为CT,MRI形式,对于一些无具体结构的医学组织,如人工耳蜗植入术中,面神经隐窝作为植入电极的重要通道,在CT和MRI影像上无法获得其形态数据。诸如此类医学结构,充分利用其在术中实时场景下获得的影像数据,通过深度学习方式得到此类医学组织的形态数据,将其三维重建后,注册到增强现实空间中,进而通过增强现实技术,实现术中知识引导。
因此,提出一种基于深度学习与增强现实的知识引导外科手术交互方法,为使用者提供准确的术中知识引导,通过佩戴增强现实眼镜,便可观察到相关组织的语义影像,为手术操作提供辅助。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种基于深度学习与增强现实的知识引导外科手术交互方法,旨在将深度学习与增强现实技术结合,为医生提供知识引导外科手术的交互方法。
本发明的目的是通过以下技术方案来实现的:
一种基于深度学习与增强现实的知识引导外科手术交互方法,包括以下几个步骤:
步骤A:通过已标定的双目相机拍摄术中相关医学组织的实时影像,使用Label me标注软件进行语义标注,再利用Vision Transformer深度学习算法,对相关医学组织进行语义分割,分别得到左右目镜下的语义分割结果图;
步骤B:结合标定过程中获得的双目相机内外参数,通过空间中任一点在两个摄像机中分别成像,得到该点在两个图像中的对应坐标,通过建立以该点的世界坐标为未知数的4个线性方程,可以用最小二乘法求解得该点的世界坐标,利用Matlab软件完成双目视觉下的三维重建;
步骤C:步骤C:将重建后的三维模型导入到实时开发平台Unity中,通过刚性配准算法使人工标记与三维模型之间与现实环境中相对位置一致,将其注册到增强现实眼镜Hololens2中,可通过增强现实眼镜观测到相应组织。
进一步的,所述步骤A包括以下子步骤:
A1:将双目相机放置在合适位置,以保证相关医学组织位于目镜视野内的方式进行拍照采样,获得的图像传输至图形工作站。
A2:通过标注软件Labelme,针对某一医学组织,如面神经隐窝,分别对双目相机获得的成对医学影像进行标注,得到含有该组织语义信息的标签图。
A3:将原图数据分为测试集与训练集,其中,训练集包含原图与标签图,测试集仅为原图,测试集数据量与训练集数据量执笔约为3:1,在深度学习平台Tensorflow上搭建Vision Transformer算法,通过预训练调整算法参数,根据得到的预测效果,挑选最优结果图作为三维建模数据。
进一步的,所述步骤B包括以下子步骤:
B1:通过之前对双目相机标定获得的相机内外参数,假设某医学组织上的一点P在两个目镜C1与C2上的图像点p1与p2。即已知p1与p2为空间同一点P的对应点。双目相机左右目镜的投影矩阵为M1和M2,于是有:
其中,(u1,v1,1)与(u2,v2,1)分别为P1与P2点在各自图像中的图像齐次坐标;(X,Y,Z,1)为P点在世界坐标系下的齐次坐标;为Mk的第i行第j列元素。基于此式便可求出(X,Y,Z)的值。根据此原理在Matlab上编程实现三维重建,得到该医学组织的三维结构。
B2:将得到的三维模型注册到Unity中,可对其进行渲染操作,使其显现效果更佳。
进一步的,所述步骤C详细介绍如下:
根据Unity与Hololens2的数据传输协议,可将三位重建模型由Unity注册到Hololens2中,当在现实环境中识别到人工标记,便可在对应医学组织位置显示其虚拟模型。
本发明的优点和有益效果
本发明中利用语义分割预测图作为三维重建数据,能够弥补某些医学组织无法在传统医学影像如CT,MRI中显示,进而影响外科医生的判断与操作这一问题,且数据来源为术中实时拍摄获得,更具参考价值;
同时本发明中通过将增强现实技术与深度学习技术结合,为外科医生提供了一种可头戴增强现实眼镜实现术中知识引导的手术方式,将虚拟模型与外部现实结合,可让外科医生看到语义分割后的关键医学组织,为外科医生提供直接有效的知识引导。
附图说明
图1是本发明的总体框架图;
图2是本发明的总体框架效果图;
图3是模拟实验效果图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干的变形和改变。这些都属于本发明的保护范围。
实施例
为了解决上述问题,本发明提供种基于深度学习与增强现实的知识引导外科手术交互方法,该方法包括以下几个步骤:
步骤A:通过已标定的双目相机拍摄术中相关医学组织的实时影像,使用Label me标注软件进行语义标注,再利用Pyramid Vision Transformer深度学习算法,对相关医学组织进行语义分割,分别得到左右目镜下的语义分割结果图;
步骤B:结合标定过程中获得的双目相机内外参数,通过空间中任一点在两个摄像机中分别成像,得到该点在两个图像中的对应坐标,通过建立以该点的世界坐标为未知数的4个线性方程,可以用最小二乘法求解得该点的世界坐标,利用Matlab软件完成双目视觉下的三维重建;
步骤C:步骤C:将重建后的三维模型导入到实时开发平台Unity中,通过刚性配准算法使人工标记与三维模型之间与现实环境中相对位置一致,将其注册到增强现实眼镜Hololens2中,可通过增强现实眼镜观测到相应组织。
进一步的,所述步骤A包括以下子步骤:
A1:将双目相机放置在合适位置,以保证相关医学组织位于目镜视野内的方式进行拍照采样,获得的图像传输至图形工作站。
A2:通过标注软件Labelme,针对某一医学组织,如面神经隐窝,分别对双目相机获得的成对医学影像进行标注,得到含有该组织语义信息的标签图。
A3:将原图数据分为测试集与训练集,其中,训练集包含原图与标签图,测试集仅为原图,测试集数据量与训练集数据量执笔约为3:1,在深度学习平台Tensorflow上搭建Pyramid Vision Transformer算法,通过预训练调整算法参数,根据得到的预测效果,挑选最优结果图作为三维建模数据。
进一步的,所述步骤B包括以下子步骤:
B1:通过之前对双目相机标定获得的相机内外参数,假设某医学组织上的一点P在两个目镜C1与C2上的图像点p1与p2。即已知p1与p2为空间同一点P的对应点。双目相机左右目镜的投影矩阵为M1和M2,于是有:
具体地:
其中,(u1,v1,1)与(u2,v2,1)分别为P1与P2点在各自图像中的图像齐次坐标;(X,Y,Z,1)为P点在世界坐标系下的齐次坐标;为Mk的第i行第j列元素。基于此式便可求出(X,Y,Z)的值。根据此原理在Matlab上编程实现三维重建,得到该医学组织的三维结构。
B2:将得到的三维模型注册到Unity中,可对其进行渲染操作,使其显现效果更佳。
进一步的,所述步骤C详细介绍如下:
根据Unity与Hololens2的数据传输协议,可将三位重建模型由Unity注册到Hololens2中,当在现实环境中识别到人工标记,便可在对应医学组织位置显示其虚拟模型。
本发明在现实空间中建立人工标记二维码与兔子模型,其中兔子用来模拟某医学组织,并将兔子对应的三位重建模型注册到Hololens2中,其实验效果如图3所示。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括至少一个该特征。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及等同物限定。
Claims (4)
1.一种基于深度学习与增强现实的知识引导外科手术交互方法,其特征在于,该方法包括以下步骤:
步骤A:通过已标定的双目相机拍摄术中相关医学组织的实时影像,使用Label me标注软件进行语义标注,再利用Vision Transformer深度学习算法,对相关医学组织进行语义分割,分别得到左右目镜下的语义分割结果图;
步骤B:结合标定过程中获得的双目相机内外参数,通过空间中任一点在两个摄像机中分别成像,得到该点在两个图像中的对应坐标,通过建立以该点的世界坐标为未知数的4个线性方程,可以用最小二乘法求解得该点的世界坐标,利用Matlab软件完成双目视觉下的三维重建;
步骤C:将重建后的三维模型导入到实时开发平台Unity中,通过刚性配准算法使人工标记与三维模型之间与现实环境中相对位置一致,将其注册到增强现实眼镜Hololens2中,可通过增强现实眼镜观测到相应组织。
进一步的,所述步骤A包括以下子步骤:
A1:将双目相机放置在合适位置,以保证相关医学组织位于目镜视野内的方式进行拍照采样,获得的图像传输至图形工作站。
A2:通过标注软件Labelme,针对某一医学组织,如面神经隐窝,分别对双目相机获得的成对医学影像进行标注,得到含有该组织语义信息的标签图。
A3:将原图数据分为测试集与训练集,其中,训练集包含原图与标签图,测试集仅为原图,测试集数据量与训练集数据量执笔约为3:1,在深度学习平台Tensorflow上搭建VisionTransformer算法,通过预训练调整算法参数,根据得到的预测效果,挑选最优结果图作为三维建模数据。
进一步的,所述步骤B包括以下子步骤:
B1:通过之前对双目相机标定获得的相机内外参数,假设某医学组织上的一点P在两个目镜C1与C2上的图像点p1与p2。即已知p1与p2为空间同一点P的对应点。双目相机左右目镜的投影矩阵为M1和M2,于是有:
其中,(u1,v1,1)与(u2,v2,1)分别为P1与P2点在各自图像中的图像齐次坐标;(X,Y,Z,1)为P点在世界坐标系下的齐次坐标;为Mk的第i行第j列元素。基于此式便可求出(X,Y,Z)的值。根据此原理在Matlab上编程实现三维重建,得到该医学组织的三维结构。
B2:将得到的三维模型注册到Unity中,可对其进行渲染操作,使其显现效果更佳。
进一步的,所述步骤C详细介绍如下:
根据Unity与Hololens2的数据传输协议,可将三位重建模型由Unity注册到Hololens2中,当在现实环境中识别到人工标记,便可在对应医学组织位置显示其虚拟模型。
2.根据权利要求1所述的一种基于深度学习与增强现实的知识引导外科手术交互方法,其特征在于,将双目相机放置在合适位置,以保证相关医学组织位于目镜视野内的方式进行拍照采样,获得的图像传输至图形工作站。通过标注软件Labelme,针对某一医学组织,如面神经隐窝,分别对双目相机获得的成对医学影像进行标注,得到含有该组织语义信息的标签图。将原图数据分为测试集与训练集,其中,训练集包含原图与标签图,测试集仅为原图,测试集数据量与训练集数据量之比约为3:1,在深度学习平台Tensorflow上搭建Pyramid Vision Transformer语义分割算法,通过预训练调整算法参数,根据得到的预测效果,挑选最优结果图作为三维建模数据。
3.根据权利要求1所述的一种基于深度学习与增强现实的知识引导外科手术交互方法,其特征在于,通过之前对双目相机标定获得的相机内外参数,畸变矩阵,根据最小二乘法进行双目视觉下的三维重建,通过在Matlab上编程实现三维重建,得到相关医学组织的三维结构。将得到的三维模型注册到Unity中,可对其进行渲染操作,使其显现效果更佳。
4.根据权利要求1所述的一种基于深度学习与增强现实的知识引导外科手术交互方法,其特征在于,通过现实中某医学组织与人工标记的坐标位置关系,通过刚性配准算法,在Unity中建立相应的虚拟人工标记与医学组织三维重建模型,将该模型注册到增强现实眼镜Hololens2中,实现术中该医学组织的实时观测,达到术中知识引导的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210523100.7A CN114943802A (zh) | 2022-05-13 | 2022-05-13 | 一种基于深度学习与增强现实的知识引导外科手术交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210523100.7A CN114943802A (zh) | 2022-05-13 | 2022-05-13 | 一种基于深度学习与增强现实的知识引导外科手术交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114943802A true CN114943802A (zh) | 2022-08-26 |
Family
ID=82906495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210523100.7A Pending CN114943802A (zh) | 2022-05-13 | 2022-05-13 | 一种基于深度学习与增强现实的知识引导外科手术交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943802A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116459009A (zh) * | 2023-05-15 | 2023-07-21 | 德智鸿(上海)机器人有限责任公司 | 一种增强现实导航系统半自动配准方法和装置 |
CN117853665A (zh) * | 2024-03-04 | 2024-04-09 | 吉林大学第一医院 | 髋臼与引导器的图像生成方法、装置及介质 |
-
2022
- 2022-05-13 CN CN202210523100.7A patent/CN114943802A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116459009A (zh) * | 2023-05-15 | 2023-07-21 | 德智鸿(上海)机器人有限责任公司 | 一种增强现实导航系统半自动配准方法和装置 |
CN117853665A (zh) * | 2024-03-04 | 2024-04-09 | 吉林大学第一医院 | 髋臼与引导器的图像生成方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110353806B (zh) | 用于微创全膝关节置换手术的增强现实导航方法及系统 | |
CN106236006B (zh) | 3d光学分子影像腹腔镜成像系统 | |
Edwards et al. | Design and evaluation of a system for microscope-assisted guided interventions (MAGI) | |
Shahidi et al. | Implementation, calibration and accuracy testing of an image-enhanced endoscopy system | |
CN114943802A (zh) | 一种基于深度学习与增强现实的知识引导外科手术交互方法 | |
CN110033465B (zh) | 一种应用于双目内窥镜医学图像的实时三维重建方法 | |
CN107049489B (zh) | 一种手术导航方法及系统 | |
Liu et al. | A wearable augmented reality navigation system for surgical telementoring based on Microsoft HoloLens | |
CN101904770B (zh) | 一种基于光学增强现实技术的手术导航系统及方法 | |
Gsaxner et al. | The HoloLens in medicine: A systematic review and taxonomy | |
CN109758230A (zh) | 一种基于增强现实技术的神经外科手术导航方法和系统 | |
CN107529968A (zh) | 用于观察口腔内部的装置 | |
US20040263535A1 (en) | Visualization device and method for combined patient and object image data | |
CN103948361B (zh) | 无标志点的内窥镜定位跟踪方法和系统 | |
CN101797182A (zh) | 一种基于增强现实技术的鼻内镜微创手术导航系统 | |
Jiang et al. | Registration technology of augmented reality in oral medicine: A review | |
CN110169821B (zh) | 一种图像处理方法、装置及系统 | |
Liao et al. | Intra-operative real-time 3-D information display system based on integral videography | |
CN112489135A (zh) | 一种虚拟三维人脸面部重建系统的标定方法 | |
CN110720985A (zh) | 一种多模式引导的手术导航方法和系统 | |
CN111297501B (zh) | 一种口腔种植手术增强现实导航方法和系统 | |
WO2022206417A1 (zh) | 一种物体空间校准定位方法 | |
Alam et al. | A review on extrinsic registration methods for medical images | |
CN109091099A (zh) | 双目视觉的高清微型电子内窥镜系统 | |
CN113995525A (zh) | 可切换视角的基于混合现实的医疗场景同步操作系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |