CN116919586A

CN116919586A - 一种基于学习的ar辅助牙科治疗自动校准和导航方法

Info

Publication number: CN116919586A
Application number: CN202310805124.6A
Authority: CN
Inventors: 夏泽洋; 凡在; 熊璟
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-10-24

Abstract

本发明公开了一种基于学习的AR辅助牙科治疗自动校准和导航方法。该方法包括：利用虚拟现实显示设备获取目标的3D下颌骨模型；将所述3D下颌骨模型输入到经训练的特征点检测网络，识别出对应的多个特征点；将所述多个特征点与对应的真实3D下颌骨模型的特征点对齐，以将虚拟现实显示设备下的虚拟模型校准并导航到真实模型上，其中，真实3D下颌骨模型的特征点利用深度相机检测；基于多特征迭代最近点算法，将虚拟环境和真实环境结合起来，完成虚拟投影在真实环境中的显示。本发明提高了牙科治疗自动校准和导航的效率和准确性。

Description

一种基于学习的AR辅助牙科治疗自动校准和导航方法

技术领域

本发明涉及生物医学工程技术领域，更具体地，涉及一种基于学习的AR辅助牙科治疗自动校准和导航方法。

背景技术

口腔颌面外科是一门以外科治疗为主，以研究口腔器官、面部软组织、颌面诸骨、颞下颌关节以及颈部某些相关疾病的防治为主要内容的学科。计算机辅助治疗(CAT)是一种常用的治疗方法，它改变了包括数字化牙科诊疗在内的许多不同医学领域的治疗方法，提高了效率和诊疗准确性，降低了对患者的影响，并能够辅助术前和术中的工作。已经开发的增强现实(AR)技术在计算机辅助治疗(CAT)领域越来越受欢迎。增强现实技术通过将虚拟解剖结构叠加在真实患者上进行手术导航。

为了提高显示器校准程序的精度和可靠性，已有方案都是基于光学跟踪系统，光学跟踪系统使用多个标记作为动态参考系，这些标记牢固地固定在目标解剖结构上，以在动态参考系移动过程中跟踪目标移动的方向和姿势。在跟踪过程中，通常需要校准动态参考系和离线解剖结构之间的相对姿态，由于标记到目标配准中的误差可能分布在整个过程中，并且在标记插入过程中可能造成不必要的误差，因此，可以利用基于误差点或基于轮廓的配准。由此可知，在计算机辅助治疗中使用标记时，实现安全性和避免侵袭性是具有挑战性的。

在现有技术中，Kellner等人提出了一种具有两阶段概念的几何校准方法(Kellner F,Bolte B,Bruder G,et al.Geometric calibration of head-mounteddisplays and its effects on distance estimation[J].IEEE transactions onvisualization and computer graphics,2012,18(4):589-596.)，该方法跟踪六自由度头部附着标记和三自由度手动标记，改善了用户的交互方式。但该方法需要手动标记，降低了校准的效率和准确性。又如，Jun等人提出了一种校准方法(Jun H,Kim G.A calibrationmethod for optical see-through head-mounted displays with a depth camera[C]//2016IEEE Virtual Reality(VR).IEEE,2016:103-111.)，利用低成本的飞行时间深度相机，进行了完全校准和简化校准两个阶段，以计算关键校准参数。但该方法要求用户使用指尖指向虚拟圆圈，不仅繁琐，而且绘制错误虚拟圆的几率很高，从而降低了校准的准确性。。

经分析，在口腔颌面外科数字化牙科诊疗领域，传统的基于AR的治疗依赖于光学标记和跟踪器，这使得治疗过程单一并且成本昂贵，而且使用基准标记、保留参考标记或在使用大型光学跟踪设备时，创建牙齿模型容易出现错误。这些基准标记和笨重的跟踪设备在使用时带来了困难，例如会对医生产生视线限制或由于标记移位而导致不准确等，这都增加了随后技术的复杂性，并需要对手术安排进行重大修改。此外，传统的计算机辅助治疗依赖于二维(2D)成像而不是感知三维(3D)图像来进行引导和导航，这导致医生对口腔的深度信息缺乏感知且造成了手眼协调的问题，因而牙科治疗领域的手术导航仍具有挑战性。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于学习的AR辅助牙科治疗自动校准和导航方法。该方法包括以下步骤：

利用虚拟现实显示设备获取目标的3D下颌骨模型；

将所述3D下颌骨模型输入到经训练的特征点检测网络，识别出对应的多个特征点；

将所述多个特征点与对应的真实3D下颌骨模型的特征点对齐，以将虚拟现实显示设备下的虚拟模型校准并导航到真实模型上，其中，真实3D下颌骨模型的特征点利用深度相机检测；

基于多特征迭代最近点算法，将虚拟环境和真实环境结合起来，完成虚拟投影在真实环境中的显示。

与现有技术相比，本发明的优点在于，实现了数字化口腔治疗中基于增强现实(AR)的无标记校准和导航，可用于基于头戴式显示器的可视化增强现实，通过提高虚拟到真实距离之间的深度图质量，使头戴式显示器中的虚拟模型校准过程完全自动化，提高了校准的效率和准确率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于学习的AR辅助牙科治疗自动校准和导航方法的流程图；

图2是根据本发明一个实施例的使用深度RGB数据的特征点检测网络的结构示意图；

图3是根据本发明一个实施例的三维模型对齐示意图；

附图中，Landmarks detection-特征点检测；Conv-卷积层；Max pool-最大池化；dropout-丢弃；upsampling-上采样；Output Probability Map-输出概率图；Pixel-wiselabeling-逐像素标记。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提供一种基于学习的AR辅助牙科治疗自动校准和导航方法，其是基于AR辅助的无标记校准和导航方案，可使用附加的深度RGB立体相机自动校准头戴式显示器下的虚拟3D下颌骨模型。总体而言，首先使用预训练的卷积神经网络模型，使用深度RGB图像检测解剖特征点；然后，基于特征点自动将虚拟模型的坐标系与世界坐标系对齐，对头戴式显示器下的虚拟模型进行校准；最后，进行无标记导航以叠加虚拟和真实环境，从而可以准确地进行牙科治疗的手术导航。该方案主要包括三部分核心内容：虚拟图像或环境建模、虚拟图像和现实空间配准以及将虚拟环境和真实环境结合起来的显示技术。最终的显示技术可通过头戴显示器完成，同时为了增强3D模型的深度导航和跟踪，在头戴显示器顶部集成了深度RGB相机，该深度RGB相机可利用非结构化光的主动立体成像技术来实现在受限视场内的精确重建。

具体地，参见图1所示，所提供的基于学习的AR辅助牙科治疗自动校准和导航方法包括以下步骤：

步骤S110，构建训练数据集，该训练数据集包含下颌骨的RGB图像、深度信息与下颌骨的多个特征点。

在一个实施例中，在术前手术计划规划阶段，使用CBCT(口腔颌面锥形束CT)获得患者的样本数据。基于感兴趣区(RoI)，根据诊断和治疗计划对数据进行分割和重建。然后，使用深度RGB立体相机来记录和生成数据集，以训练用于解剖标志检测的深度神经网络。

例如，数据集反映下颌骨的RGB图像、深度信息与下颌骨的多个特征点之间的对应关系。特征点是用于识别下颌骨的基本特征，如头部、颈部、基部和喙部等，特征点数目可根据精度和效率要求进行设定。

进一步地，为了增强数据集的多样性，虚拟几何体可采用多种不同的纹理和材质。为了确保训练数据集包含不同的相机姿势，在捕获每个图像之前，引入了适度的相机随机位置和旋转偏移。此外，通过设置不同强度、色温和位置的各种照明配置，以最大限度地提高数据集的多样性。

步骤S120，构建神经网络模型作为特征点检测网络，并利用训练数据集进行训练。

在一个实施例中，下颌骨解剖模型特征点检测网络基于FCN(全卷积网络)构建，参见图2所示，该特征点检测网络整体上包括编码器和解码器。编码器主要有卷积层和最大池化层组成，通过卷积操作逐渐减小特征图大小并捕获更高层次的语义信息。解码器主要包含上采样层和卷积层，通过上采样或反卷积的方式逐渐恢复图像细节信息。并通过设计跳跃连接(Skip connections)，将全局信息和局部信息连接起来，以产生更准确和精细的检测结果。检测解剖模型特征点的目的是识别下颌骨三维模型的基本特征，如头部、颈部、基部和喙部。

进一步地，针对特征点检测，优化了FCN(全卷积网络)，通过将前景与背景分离之后生成密集的概率图来预测3D牙齿模型。使用FCN的输出来标记下颌骨的特征点，并创建用于逐像素实时跟踪的标签。FCN的编码器使用卷积和池化操作来计算具有空间分辨率递减和深度信息递增的特征图。解码器使用转置卷积和逐元素融合来生成与输入图像空间维度相同的类得分图。

为了执行HMD(头戴式显示器)的初始校准，安装在HMD(头戴式显示器)上的深度RGB相机捕捉并识别下颌骨体模的特征。对捕获的帧进行处理，以符合FCN(全卷积网络)所需的输入模态，FCN(全卷积网络)识别出每个像素位置处的每个类别(例如背景＝0、下颌骨＝1和特征点＝2)概率值的3通道概率图。通过将概率与来自输入帧的深度信息相结合，可以对下颌骨特征点进行密集标记。然后，使用这些标记的像素来创建基于模型的位置跟踪的数据对应关系。这种跟踪方法使物体模型与标记的数据相匹配，从而能够确定物体的6D姿态。

随后，利用从3D模型生成的深度RGB图像训练网络，同时使用了真实的3D模型进行测试。此外，本发明还采用了数据增强技术来提高性能。

步骤S130，利用经训练的特征点检测网络检测解剖特征点，并与真实3D模型的特征点对齐，实现虚拟模型与真实模型的无标记校准。

由于特征点检测网络针对下颌骨特征检测进行了预训练。当利用头戴式显示器捕获真实模型的特征点时，通过特征点检测网络可将虚拟模型对齐并导航到真实模型上以完成无标记校准和导航。

具体地，检测到的特征点可以描述出下颌骨的特征。使用这些检测到的解剖特征点，进一步设计了自动校准虚拟模型及导航的方法。在使用深度立体相机检测真实三维物体上的特征点后，将虚拟模型的多个特征点与其真实3D模型的特征点对齐。通过这种方法，保留了虚拟模型到真实物体之间的特征点移动距离，并给出了准确的校准。如图3所示，在虚拟环境中，将检测到的6个特征点自动与真实物体对齐，其中图3(a)对应真实的3D模型，图3(b)对应虚拟3D模型。

需说明的是，为了确定3D虚拟对象的姿态，空间中的3个非共线点就足够了，但优选使用6个点更容易对齐，并提供了更好的深度提示。

在一个实施例中，计算了相应的变换矩阵，并采用RANSAC(随机取样一致性算法)算法剔除具有重新投影误差的异常值，并细化最准确的变换。RANSAC可以从一组包含“局外点”的观测数据集中，通过迭代方式估计数学模型的参数，并通过设定相关阈值，将“局外点”或者“噪声”剔除。

由于目标和虚拟显示器之间的深度差异，未能考虑视差可能导致错位。针对无标记配准，为了实现显示像素点p^(s)和观察到的3D实点V^(M)之间的空间一致性，使用以下方程进行校准：

其中，p^(s)为显示像素点的位置，K为相机的投影矩阵，为相机立体姿态，/>为是HMD(头戴式显示器)的内部变换矩阵，M^(D)为跟踪姿态，V^(M)为3D实点。

步骤S140，基于特征点，采用多特征迭代最近点算法将虚拟环境和真实环境结合起来，实现无标记导航。

开发基于头戴式显示器的应用程序的一个重要步骤是获取真实世界中的立体相机和3D虚拟模型之间的变换矩阵。在一个实施例中，利用深度RGB相机的特征点检测技术来获得整体变换和重投影矩阵。

例如，提供一种基于检测到的特征点的点对点导航的多特征迭代最近点算法(ICP)。该方法使用三维下颌骨模型的相应特征点，自动估计真实物体特征点与从深度RGB相机检测到的3D虚拟模型特征点之间的导航误差，3D虚拟模型的特征点坐标已经从深度相机坐标系中获得，该坐标系将3D模型显示并对齐在真实物体的坐标系下，以完成无标记导航。使用如下的变换矩阵：

其中，是重新投影的特征点矩阵，/>是头戴显示器的内部变换矩阵，f_i ^(D)是原始特征点矩阵，n为特征点数量

具体地，使用RANSAC算法基于重投影误差剔除异常值样本，以实现更准确的变换。计算重新投影误差如下：

为进一步验证本发明的效果，进行了实验。在实验中，将深度RGB相机连接到商用头戴式AR显示器，以实时检测下颌骨特征点，并进行校准。经验证，利用本发明所开发的系统实现了1.09±0.23mm像素的虚拟模型到真实物体重投影误差。并且，校准实现了5.33±1.89arcmin的显示误差。此外，对基于真实解剖结构的牙科治疗实验(下颌骨)进行了无标记导航，以验证本发明系统在数字牙科中的使用。根据用户反馈，基于商用头戴式显示器的手术导航具有可靠、稳定的跟踪、显示延迟以及与真实解剖结构快速对齐的特点，实现了整体平移和旋转手术导航误差，分别为3.85±0.62mm和2.65±1.47°。经验证，本发明成功实现了基于学习的AR辅助牙科治疗自动校准和导航。

综上所述，相对于现有技术，本发明具有以下优势：

1)提出了一种新的高度可重构的头戴式显示器虚拟模型的校准和导航方法，使用深度RGB传感立体相机自动检测下颌骨感兴趣区域(RoI)特征点，从而避免了使用光学标记和传感器，可以完成跟踪重叠虚拟模型和真实物体。

2)本发明设计了一个大规模的深度RGB数据集，该数据集具有多个部位遮挡和不同姿态的随机区域，符合真实场景，以克服数据问题。

3)针对目前采用标记的校准和导航方法，本发明提出了新的基于学习的无标记头戴式显示器的AR系统，用于数字牙科的计算机辅助治疗。并且通过提高虚拟到真实距离之间的深度图质量，使头戴式显示器中的虚拟模型校准过程完全自动化，提高了校准的效率和准确率。

4)本发明消除了用户的输入并避免了外部传感器，使其在测量过程中更精准并且避免了复杂的设备。

5)本发明基于识别出的特征点，提出了导航方法，重新投影的时间更短，准确度更高，能够快速准确投影及定量分析。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于学习的AR辅助牙科治疗自动校准和导航方法，包括以下步骤：

利用虚拟现实显示设备获取目标的3D下颌骨模型；

2.根据权利要求1所述的方法，其特征在于，所述特征点检测网络是全卷积网络模型，包含编码器和解码器，且编码器和解码器之间设置跳跃连接，编码器使用卷积和池化操作来计算具有空间分辨率递减和深度信息递增的特征图，解码器使用转置卷积和逐元素融合来生成与输入图像空间维度相同的类得分图，所述全卷积网络模型的输出用于标记3D下颌骨模型的特征点。

3.根据权利要求2所述的方法，其特征在于，所述全卷积网络模型针对输入的RGB图像识别出每个像素位置处的多个类别概率值的多通道概率图，通过将概率与来自输入帧的深度信息相结合，对下颌骨特征点进行标记，所述多个类别包含背景、下颌骨和特征点。

4.根据权利要求1所述的方法，其特征在于，根据以下公式实现显示像素点p^(s)和3D实点V^(M)之间的配准：

其中，p^(s)为显示像素点的位置，K为深度相机的投影矩阵，为深度相机的立体姿态，是虚拟现实显示设备的内部变换矩阵，M^(D)为跟踪姿态，V^(M)为3D实点。

5.根据权利要求1所述的方法，其特征在于，采用以下公式将虚拟投影在真实环境中的显示：

其中，是重新投影的特征点矩阵，/>是虚拟现实显示设备的内部变换矩阵，f_i ^(D)是原始特征点矩阵，n为特征点数量。

6.根据权利要求5所述的方法，其特征在于，在将虚拟投影在真实环境中的显示过程中，将重投影误差大于设定阈值的点，作为异常值样本进行剔除，所述重新投影误差根据以下公式计算：

7.根据权利要求1所述的方法，其特征在于，所述虚拟现实显示设备是头戴式AR显示器，在该头戴式显示器顶部集成深度RGB相机。

8.根据权利要求1所述的方法，其特征在于，所述特征点检测网络的训练数据集根据以下步骤构建：

使用口腔颌面锥形束CT获得患者下颌骨的样本数据；

基于感兴趣区，根据诊断和治疗计划对样本数据进行分割和重建；

使用深度RGB立体相机生成数据集，所述数据集包含下颌骨的RGB图像、深度信息与下颌骨的多个特征点；

对所述数据集进行增强处理，以构建训练数据集，其中所述增强处理包括：对于虚拟几何体，采用多种不同的纹理和材质；对于RGB图像，包含不同的相机姿势并设置不同强度、色温和位置的各种照明配置。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。