CN112639880A

CN112639880A - 使用深度学习自动确定3d对象的正则姿态和自动叠加3d对象

Info

Publication number: CN112639880A
Application number: CN201980057637.5A
Authority: CN
Inventors: F·T·C·克莱森; D·安萨里莫因; T·奇里希
Original assignee: Promonton Holdings Ltd
Current assignee: Promonton Holdings Ltd; Promaton Holding BV
Priority date: 2018-07-03
Filing date: 2019-07-03
Publication date: 2021-04-09
Also published as: JP2021529051A; WO2020007941A1; IL279834A; EP3591616A1; US20210174543A1; EP3818500A1; KR20210028226A; JP7493464B2; BR112020026687A2; CA3104592A1

Abstract

描述了一种用于自动确定由3D数据集表示的3D对象的正则姿势的方法，其中，该方法包括：将与第一坐标系相关联的3D对象的体素表示的体素的一个或多个块提供给第一3D深度神经网络的输入，该第一3D深度神经网络被训练为生成与正则坐标系相关联的正则姿态信息，该正则坐标系相对于该3D牙科结构的一部分的位置限定；从该第一3D深度神经网络的输出接收正则姿态信息，该正则姿态信息包括针对一个或多个块的每个体素的、该体素在该正则坐标系中的位置的预测，该位置由正则坐标限定；使用该正则坐标来确定相对于第一3D坐标系的轴和原点的该正则坐标系的轴的取向和比例以及该正则坐标系的原点的位置，并且使用该取向和位置来确定转换参数，以将该第一坐标系的坐标转换为正则坐标；以及确定该3D牙科结构的正则表示，该确定包括将该转换参数应用于体素表示的体素的坐标或用于确定该体素表示的3D数据集。

Description

使用深度学习自动确定3D对象的正则姿态和自动叠加3D对象

技术领域

本发明涉及使用深度学习自动确定3D对象(例如，3D牙科结构)的正则(canonical)姿态以及自动叠加3D对象；特别地，但非排他性地，涉及用于自动确定3D对象的正则姿态的方法和系统以及用于自动叠加3D对象的方法和系统以及使计算机系统能够执行这些方法的计算机程序产品。

背景技术

患者牙列和颌骨(上颌骨和下颌骨)的精确的3D模型对于3D计算机辅助牙科应用(正畸治疗计划、牙科植入物计划、正颌外科手术计划(颌手术)等)至关重要。这样的3D模型的形成基于患者的3D图像数据，典型地基于表示例如牙颌面复合体或其他身体部位的3D对象的3D计算机断层扫描(CT)数据。CT扫描通常产生表示3D对象的(一部分)的体素表示，其中，每个体素与强度值(通常是扫描的体积的射电密度)相关联。在医疗应用(例如，牙科应用)中，通常使用锥形束CT(CBCT)获取CT扫描，这是因为与扇形束CT相比，锥形束CT对患者的辐射剂量更低，设备的购买价格更低且更易于使用。

但是，CBCT技术对伪影敏感(尤其在存在金属的情况下)，尚无用于将CBCT扫描仪的传感器输出转换为表示在扫描的体积中的以亨斯菲尔德(Hounsfield)单位(HU)的射电密度的辐射值的行业标准。而且，使用低剂量提供了相对差的对比度，使得难以区分3D对象(例如，牙颌面复合体)中的具有相似的密度的结构。这些问题可能导致在使用例如阈值技术从这样的体素表示导出的3D模型的差异。因此，从CBCT数据的体素表示导出的3D模型不适合或至少不太适合于设计精确地拟合牙齿支撑模板，例如在例如正畸学(透明矫治器治疗)、颌手术(正颌外科手术)、种植手术(牙种植学)、美容牙科(牙冠、牙桥)等中使用。

为了解决该问题，可以用光学扫描数据来补充、增强和/或(部分地)替换CBCT数据集的体素表示或从这种体素表示导出的3D模型。光学扫描数据(例如，口内扫描(IOS)数据)通过以下生成：对从患者牙列的石膏模型(或印模)得出的牙齿表面(通常是牙冠和周围的牙龈表面)的(例如，激光或结构光)表面扫描，或通过生成患者牙列的口内扫描(IOS)数据而生成。与(CB)CT数据相比，优点是数据获取过程中不存在辐射，并且具有更高的空间分辨率。光学(口外)扫描和IOS的典型精确度分别近似在5到10微米的范围内和25到75微米的范围内。但是，扫描结果无法区分牙齿(牙冠)区域和牙龈区域。此外，无法捕获在可见表面之外的信息，特别是无法获取关于牙根、颌骨、神经等的信息。可以通过例如从具有对应根部形状的牙冠形状的数据库中得出的一般化模型数据来补充口内扫描，以估计底层结构，但是这样的一般化没有考虑到考虑所需体积的实际3D形状的信息。因此，这种基于模型的估计本质上是不精确的。

更一般而言，当处理3D图像数据例如以生成精确的3D模型、修复3D数据集中缺失的数据、以及分析和评估例如(潜在的)治疗效果/结果或出于疾病进展分析的目的时，将来自不同源的3D图像数据集进行组合是有利的甚至是必要的。这可能意味着将一个或多个体素化的3D数据集(例如，CBCT数据集)和/或同一3D对象(例如，同一牙科结构或骨结构)的一个或多个点云或3D表面网格数据集(例如，IOS数据集)进行对准，并将对准的集合合并为可用于确定精确的3D模型或用于执行牙科结构的分析的一个数据集。将不同的图像数据集对准的过程称为图像叠加或图像配准。因此，叠加或配准的问题涉及找到在一个或多个坐标系之间的一对一映射，以使得不同的坐标系中的模型(例如，3D牙科结构)的对应特征相互映射。对准的数据集合并为表示牙科结构的一个数据集通常称为融合。

在CT和CBCT成像中，已知的3D叠加技术包括基于点或基于界标的叠加、基于表面或基于轮廓的叠加、以及基于体素的叠加。此类技术的示例在以下文章中进行了描述：GKANTIDIS，N等人，Evaluation of 3-dimensional superimposition techniques onvarious skeletal structures of the head using surface models(利用表面模型的头部各种骨骼结构的三维叠加技术的评估)，PLoS One 2015，第10卷，第2号；以及JODA T等人，Systematic literature review of digital 3D superimposition techniques tocreate virtual dental patients(数字3D叠加技术创建虚拟牙科患者的系统文献综述)，Int J Oral Maxillofac Implants，2015年3月至4月，第30卷，第2号。通常，这些技术需要人工干预，例如人工输入。

基于点的叠加技术和基于表面的叠加技术的精确性分别取决于界标标识和3D表面模型的精确性。在存在伪影和低对比度区域的情况下，这可能尤其成问题。当匹配不同的数据集时，以足够的精度标识对应的界标将是有挑战的。基于点的匹配算法(例如，迭代最近点(ICP))通常需要用户交互以提供已经相对紧密对准的初始状态。基于体素的叠加可能克服基于界标的叠加技术和基于表面的叠加技术的某些限制。该技术采用存储为体素表示的3D体积信息。(待)叠加的3D数据之间的相似性可以从对应的参考结构中的体素的水平强度中推断出。当组合不同来源的低对比度非标准化的CBCT数据或组合不同图像模态的数据(例如，CT和MRI，或CBCT和二进制3D图像数据(可能从包围或不包围体积的表面网格得出))时，此技术尤其具有挑战性。当数据集仅部分重叠时，可能会出现额外的困难。现有技术的基于体素的叠加方法通常在计算上很昂贵。

3D数据集的大尺寸以及临床实施需要非常严格的精确性标准的事实使得难以在高维医学图像上利用传统的图像叠加方法。随着深度学习的最新发展，已经做出了一些努力来将深度学习应用于图像配准领域。在一种方法中，深度学习用于估计相似性度量，然后该相似性度量用于驱动迭代优化方案。这是例如由Simonovsky等人在A Deep Metric forMultimodal Registration(多模态配准的深度度量)，MICCAI 2016(Springer,Cham)，第10-18页中进行了报道，其中，提出的问题为分类任务，其中，CNN被设置为区分两个叠加的图像块的对准和未对准。在另一种方法中，深度回归(神经)网络用于预测图像之间的转换参数。例如，EP3121789描述了一种方法，其中深度神经网络用于直接预测3D CT图像和2D X射线图像之间的转换的参数。类似地，Li等人的2017年9月3日的文章““Non-rigid imageregistration using fully convolutional networks with deep self-supervision(使用具有深度自我监督的全卷积网络进行非刚性图像配准)”，其中，经训练的神经网络接收两张图片，并为每个像素计算变形dx、dy，dx，其用于将一张图片配准到另一张上。此方法需要两个已经具有一定相似度的输入图像，因此无法处理不同模态的3D数据集。因此，现有技术中没有解决配准特定3D对象的不同模态(姿态、数据类型、坐标系等)的3D数据集的问题。

叠加系统应当能够处理的这些3D数据集中的较大变化(在数据格式/模态、坐标系、3D对象的位置和取向、图像数据的质量、当前结构之间的不同重叠量等方面的较大变化)使3D对象的准确自动叠加(例如，无需任何人工干预的3D牙科结构的叠加)的问题成为重要课题。已知的叠加系统不能以可靠和鲁棒的方式处理这些问题。更一般而言，不同模态的3D数据集的较大变化为深度神经网络系统的精确处理带来了问题。这不仅是精确配准的问题，而且是深度神经网络进行精确分割和/或分类的问题。

因此，本领域中需要一种能够完全自动、及时且鲁棒地叠加3D对象(例如，3D牙颌面结构、3D数据集)的方法。更具体地说，本领域中需要一种其中例如牙科专家可以获得任何各种目的所需的叠加结果而无需从所述专家要求额外的知识或交互并且结果具有已知的精确性和及时性的方案。

发明内容

如本领域技术人员将理解的，本发明的各方面可以体现为系统、方法或计算机程序产品。因此，本发明的方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或结合软件和硬件方面(本文中可以通常都称为“电路”、“模块”或“系统”)的实施例的形式。本公开中描述的功能可以被实现为由计算机的微处理器执行的算法。此外，本发明的方面可以采取体现在一个或更多个计算机可读介质中的计算机程序产品的形式，计算机可读介质具有体现在其上、例如存储在其上的计算机可读程序代码。

可以利用一个或更多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外、或半导体系统、设备或装置或前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下：具有一根或更多根线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述的任何合适的组合。在本文的上下文中，计算机可读存储介质可以是任何有形介质，其可以包括或存储供指令执行系统、设备或装置使用或与指令执行系统、设备或装置结合使用的程序。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分的传播的数据信号，其具有体现在其中的计算机可读程序代码。这样的传播信号可以采取多种形式中的任何一种，包括但不限于电磁、光学形式或其任何合适的组合。计算机可读信号介质可以是任何的不是计算机可读存储介质并且可以通信、传播或传输供指令执行系统、设备或装置使用或与指令执行系统、设备或装置结合使用的程序的计算机可读介质。

体现在计算机可读介质上的程序代码可以使用任何适当的介质来传输，包括但不限于无线、有线、光纤、电缆、RF等，或者上述的任何合适的组合。可以以一种或更多种编程语言的任何组合来编写用于实现本发明的方面的操作的计算机程序代码，所述编程语言包括诸如Java(TM)、Scala、C++、Python等的功能或面向对象的编程语言，以及诸如“C”编程语言或类似的编程语言的常规的程序编程语言。程序代码可以完全在用户计算机上执行，部分在用户计算机上执行，作为独立软件包执行，部分在用户计算机上并且部分在远程计算机上执行，或者完全在远程计算机、服务器或虚拟服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以与外部计算机连接(例如，使用因特网服务提供商通过因特网)。

下面参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述本发明的方面。将理解的是，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器，特别是微处理器或中央处理单元(CPU)或图形处理单元(GPU)以产生机器，使得指令经由计算机的处理器、其他可编程数据处理设备或其他装置执行而创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的部件。

这些计算机程序指令还可以存储在计算机可读介质中，所述计算机可读介质可以指导计算机、其他可编程数据处理设备或其他装置以特定方式运行，使得存储在计算机可读介质中的指令产生制造品，其包括实现流程图和/或框图的一个或多个框中指定的功能/动作的指令。

也可以将计算机程序指令加载到计算机、其他可编程数据处理设备或其他装置上，以引起一系列操作步骤在计算机、其他可编程设备或其他装置上执行以产生计算机实现的过程，使得在计算机或其他可编程设备上执行的指令提供用于实现流程图和/或框图的一个或多个框中指定的功能/动作的过程。

附图中的流程图和框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。就这点而言，流程图或框图中的每个框可以表示代码的模块、节段或部分，其包括用于实现指定的逻辑功能的一个或更多个可执行指令。还应注意，在一些替代实施方式中，框中指出的功能可以不按图中指出的顺序发生。例如，取决于所涉及的功能，实际上可以基本上同时执行连续示出的两个框，或者有时可以以相反的顺序执行这些框。还应注意，框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合来实现。

在本申请中，“图像”可以指包括两个、三个或更多个空间维度的信息的数据集。“3D图像数据”可以指任何种类的三维数据集(例如，体素强度值、表面网格限定等)。调整一个或多个图像的坐标系以与包括相同结构(的部分)的另一参考图像的坐标系相符也称为数据或图像配准、匹配、叠加或对准。除非上下文另有指示，否则这些术语(以及从这些术语派生的其他词语)可以互换使用。在该上下文中，“转换参数(的集合)”是关于如何旋转、平移和/或缩放一个数据集以便将其叠加到另一个数据集上或在替代的坐标系中表示该数据集的信息的通用术语；它可以由单个矩阵表示，也可以由例如矩阵、向量和/或标量的集合表示。

在一个方面，本发明涉及一种用于自动确定3D数据集中的3D对象的正则姿态的计算机实现的方法。该方法可以包括：计算机的处理器将3D数据集的一个或多个块的数据点提供给第一3D深度神经网络的输入，该第一3D深度神经网络被训练为生成与正则坐标系相关联的正则姿态信息，该正则坐标系是相对于3D对象的一部分的位置而限定的；处理器从第一3D深度神经网络的输出接收正则姿态信息，该正则姿态信息包括针对一个或多个块的每个数据点的、数据点在正则坐标系中的位置的预测，位置由正则坐标限定；处理器使用正则坐标来确定相对于第一3D坐标系的轴和原点的正则坐标系的轴的取向、正则坐标系的原点的位置和/或正则坐标系的轴的缩放比例；使用取向和位置确定用于将第一坐标系的坐标转换为正则坐标的转换参数；以及处理器确定3D对象的正则表示，该确定包括将转换参数应用于3D数据集的数据点的坐标。

在实施例中，3D对象可以是3D牙科结构。在实施例中，3D数据集的数据点可以表示体素。在另一个实施例中，3D数据集的数据点可以限定点云的点或3D表面网格的点和法线。

在实施例中，第一3D深度神经网络可以被配置为卷积深度神经网络，其被配置为处理体素化的3D数据。

在另一个实施例中，第一3D深度神经网络可以被实现为基于深度多层感知器(MLP)的网络，其能够处理3D点云或3D表面网格的点。

在实施例中，转换参数可以包括旋转、平移和/或缩放参数(scaling parameter)。

在实施例中，3D对象的正则表示可以是3D对象的正则体素表示或正则3D网格表示。

在实施例中，正则姿态信息可以包括一个或多个体素图，其用于将体素表示的体素与该体素在正则坐标系中的位置的预测相关联(将体素表示的体素链接到体素在正则坐标系中的位置的预测)。

在实施例中，一个或多个体素图可以包括第一3D体素图、第二3D体素图和第三3D体素图，该第一3D体素图将体素与正则坐标系的第一正则坐标x'的预测相关联(链接)，该第二3D体素图将体素与正则坐标系的第二正则坐标y'的预测相关联(链接)，该第三3D体素图将体素与正则坐标系的第三正则坐标z'的预测相关联(链接)。

在实施例中，确定正则坐标系的轴的取向还可以包括：针对体素表示的体素确定在一个或多个3D体素图中的一个3D体素图的正则坐标中的局部梯度(gradient)，该局部梯度表示由第一坐标系限定的空间中的向量，其中，向量的取向表示正则轴的取向的预测和/或其中，向量的长度限定与正则轴相关联的缩放因子(scaling factor)。

因此，该方法允许自动确定3D对象(例如，3D牙科结构)的正则表示。该方法可用于将3D对象的不同3D数据模态转换为3D对象的正则姿态，该正则姿态可用于不同3D数据集的叠加过程中。替代地和/或附加地，该方法可以用作在将3D数据集提供给一个或多个3D深度神经网络的3D输入之前的预处理步骤，该一个或多个3D深度神经网络被配置为分割3D对象(例如，3D牙科结构)，和/或确定分割的3D对象(例如，牙齿)的分类。这样的预处理步骤大大提高了3D对象分割和分类的精确性，因为如果由输入到系统的3D数据集表示的3D对象的姿态偏离归一化的姿态过多(尤其是相对于取向)，则可能影响这种训练后的神经网络的精确性。

在另一方面，本发明可以涉及一种用于自动叠加由(至少)第一3D数据集表示的第一3D对象(例如，第一3D牙科结构)和由第二3D数据集表示的第二3D对象(例如，第二3D牙科结构)的计算机实现的方法。在实施例中，第一3D对象和第二3D对象是同一个人的3D牙科结构。在实施例中，该方法可以包括：计算机的处理器将与第一坐标系相关联的第一3D对象的第一体素表示的体素的一个或多个第一块以及与第二坐标系相关联的第二3D对象的第二体素表示的体素的一个或多个第二块提供给第一3D深度神经网络的输入，该第一3D深度神经网络被训练为生成与正则坐标系相关联的正则姿态信息，该正则坐标系是相对于3D对象的一部分的位置而限定的；处理器从3D深度神经网络的输出接收第一正则姿态信息和第二正则姿态信息，该第一正则姿态信息包括针对一个或多个第一块的每个体素的、该体素在正则坐标系中的的第一位置的预测；第二正则姿态信息包括针对一个或多个第二块的每个体素的、该体素在正则坐标系中的第二位置的预测，第一位置和第二位置分别由第一正则坐标和第二正则坐标限定；处理器使用第一正则姿态信息确定第一坐标系中轴的第一取向和轴的原点的第一位置，并使用第二正则姿态信息确定第二坐标系中正则坐标系的轴的第二取向和轴的原点的第二位置；处理器使用第一取向和第一位置来确定第一转换参数(优选地为第一旋转、平移和/或缩放参数)，用于将第一坐标系的坐标转换为正则坐标系的坐标；并且使用第二取向和第二位置确定第二转换参数(优选地为第二旋转、平移和/或缩放参数)，用于将第二坐标系的坐标转换为正则坐标；以及处理器确定第一3D对象和第二3D对象的叠加，该确定包括分别使用第一转换参数和第二转换参数来形成第一3D对象的第一正则表示和第二3D对象的第二正则表示。

因此，通常同一患者的3D对象(例如，3D牙科结构(表示牙颌面复合体))的两个或更多个不同的3D数据集可以通过将与3D数据集相关联的坐标转换为正则坐标系的坐标而被叠加。在典型的示例中，不同的3D数据集可以是患者牙列(的一部分)的不同扫描。通常，不同的3D数据集至少部分重叠，即，两个数据集共同具有对象要素的至少一部分(例如，在3D牙科结构的情况下，为牙齿或牙冠)。3D深度神经网络(例如，3D卷积神经网络)可以确定3D对象的至少部分的正则姿态。在一些实施例中，3D深度神经网络逐块处理坐标，以满足计算限制。然后，计算机可以应用附加的处理，以推导出提供给3D卷积网络的对于每个体素的正则原点和正则轴的相对位置(方向和比例(scale))。随后，可以推导用于叠加或对准两个图像数据集的转换参数，并且可以使用所述转换参数来对准3D图像数据集。第一3D图像数据集可以被转换为与第二3D图像数据集对准，或者第二3D图像数据集可以被转换为与第一3D图像数据集对准，或者两个3D图像数据集均可以被转换为使得它们以不同于任一接收到的取向的第三取向对准。

3D深度神经网络可以被训练为对3D数据集中的变化非常鲁棒，因为3D深度神经网络是基于大量典型的3D牙颌面结构进行训练的，其中，这些结构显示出较大的空间变化(平移、旋转和/或缩放)。与3D深度神经网络的(有限的)存储器大小有关的问题可以通过基于体素表示的子样本(块)训练深度神经网络来解决。为此，体素表示在被提供给3D深度神经网络的输入之前，可以被划分为预定大小的体素块。使用块的附加优点是，网络可以确定甚至有限数量的数据(例如，几颗牙齿而不是整个牙列)的正则姿态。由于正则坐标系是相对于对象(例如，牙颌面结构)的已知(预定)标准而限定的事实，因此获得的第一正则3D数据集和第二正则3D数据集被对准，其中，精确度可能取决于训练时间、训练样本变化和/或每个接收到的数据集的可用的块。

在本公开中，正则姿态限定了包括位置、取向和比例的姿态，并且是通过将预定位置和/或取向分配给(优选地)3D对象的可以可靠地且明确地标识的部分(例如，在3D牙科结构的情况下为牙弓)而限定的姿态。以类似的方式，正则坐标系可以通过将原点分配给相对于可标识的3D对象的部分的可以可靠地且明确地标识的位置来限定，从而以一致的方式限定坐标轴，例如，沿牙弓的最大曲率点的切线的x轴。这样的正则坐标系可以限定标准化的、无歧义的、预定的坐标系，该坐标系在某种类型的3D对象数据上是一致的(例如，所有牙颌面图像数据可以相对于可以可靠地标识的牙颌面结构的典型位置、取向和比例来限定)。其功能是确保不同图像数据集中的3D对象处于相同的相对位置、取向和比例。这样的功能可以用于多种应用，其中，诸如体素表示、点云或3D网格等3D数据由训练后的神经网络处理。本公开中的实施例利用以下见解：如果两个或更多个3D对象被转换到正则坐标系，则3D对象也彼此对准。此外，其利用以下见解：牙颌面结构的正则姿态可以通过利用3D深度神经网络(优选地，3D卷积神经网络)来自动确定，从而避免了对人工交互的需要。

在实施例中，第一3D对象的第一正则表示和第二3D对象的第二正则表示，优选地，第一3D表面网格和第二3D表面网格可以是3D表面网格，确定叠加还包括：将第一3D对象的第一正则表示分割成第一3D对象的3D对象元素(例如，第一3D牙科对象元素)的至少一个3D表面网格，并将第二3D对象的第二正则表示分割成第二3D对象的第二3D对象元素(例如，第二3D牙科元素)的至少一个3D表面网格；选择第一3D表面网格和第二3D表面网格的至少三个第一非共线关键点和至少三个第二非共线关键点、关键点(3D表面网格的表面上的关注点)；以及基于第一个和第二个的第一非共线关键点以及第一个和第二个的第二非共线关键点对准第一3D牙科元素和第二3D牙科元素。在实施例中，关键点可以限定第一表面网格的表面曲率的局部和/或全局最大值或最小值。

在实施例中，第一3D对象和第二3D对象的第一正则表示和第二正则表示可以是体素表示。在实施例中，确定叠加还可以包括：将第一3D对象的第一正则体素表示的至少一部分和第二3D对象的第二正则体素表示的至少一部分提供给第二3D深度神经网络的输入，该第二3D深度神经网络被训练为确定转换参数(优选地，旋转、平移和/或缩放参数)，用于将第一正则体素表示和第二正则体素表示对准；基于第二3D深度神经网络输出提供的转换参数对准第一3D对象的第一正则表示和第二3D对象的第二正则表示。

在实施例中，确定叠加还可以包括：处理器确定第一3D对象的正则表示与第二3D对象的正则表示之间的重叠的体积。

在实施例中，确定叠加还可以包括：处理器确定第一感兴趣的体积，该第一感兴趣的体积包括重叠的体积中的第一正则表示的第一体素；以及确定第二感兴趣的体积，该第二感兴趣的体积包括重叠的体积中的第二正则表示的第二体素。

在实施例中，该方法还可以包括：处理器将包含在第一感兴趣的体积(VOI)中的第一体素提供给第三3D深度神经网络的输入，该第三3D深度神经网络被训练为对体素进行分类和分割；以及处理器从第三3D深度神经网络的输出中接收第一感兴趣的体积中的每个第一体素的激活值和/或第二感兴趣的体积中的每个第二体素的激活值，其中，体素的激活值表示该体素属于预定3D对象元素(例如，3D牙科结构的3D牙科元素(例如，牙齿))的概率；以及处理器使用激活值分别确定第一VOI和第二VOI中第一3D对象元素和第二3D对象元素的第一体素表示和第二体素表示。

在实施例中，处理器可以使用第一3D对象元素和第二3D对象元素的第一体素表示和第二体素表示来确定第一3D对象元素和第二3D对象元素的第一3D表面网格和第二3D表面网格。

在实施例中，该方法还可以包括：处理器选择第一3D表面网格和第二3D表面网格的至少三个第一非共线关键点和至少三个第二非共线关键点，关键点优选地限定第一表面网格的表面曲率中的局部和/或全局最大值或最小值；以及处理器优选地使用迭代最近点算法，基于第一个和第二个的第一非共线关键点和第一个和第二个的第二非共线关键点对准第一3D对象元素和第二3D对象元素。

在实施例中，该方法还可以包括：处理器将第一3D牙科元素的第一体素表示和第二3D牙科元素的第二体素表示提供给第四3D深度神经网络，该第四3D深度神经网络被训练为生成多个候选结构标签中的每一个的激活值，与候选标签相关联的激活值表示由第四3D深度神经网络的输入接收到的体素表示表示由候选结构标签指示的结构类型的概率；处理器从第四3D深度神经网络的输出接收多个第一激活值和第二激活值，选择具有第一多个激活值中的最高激活值的第一结构标签，并选择具有第二多个激活值中的最高激活值的第二结构标签，并将第一结构标签和第二结构标签分别分配给第一3D表面网格和第二3D表面网格。

在实施例中，该方法还可以包括：处理器选择第一3D表面网格和第二3D表面网格的至少三个第一非共线关键点和至少三个第二非共线关键点，关键点优选地限定第一表面网格的表面曲率中的局部和/或全局最大值或最小值；处理器分别基于分配给第一3D表面网格的第一结构标签和分配给第二3D表面网格的第二结构标签标记第一关键点和第二关键点；以及处理器优选地使用迭代最近点算法分别基于第一3D表面网格和第二3D表面网格的第一关键点和第二关键点以及第一结构标签和第二结构标签对准第一3D牙科元素和第二3D牙科元素。

在另一方面，本发明可以涉及一种用于训练3D深度神经网络以自动确定由3D数据集表示的3D对象(例如，3D牙科结构)的正则姿态的计算机实现的方法。在实施例中，该方法可以包括：接收训练数据和相关联的目标数据，该训练数据包括3D对象的体素表示，该目标数据包括该体素表示的每个体素的正则坐标系的正则坐标值，其中，正则坐标系是相对于3D牙科结构的部分的位置限定的预定坐标系；选择预定大小的体素表示的一个或多个体素块(一个或多个子样本)，并将随机3D旋转应用于子样本，并将相同的旋转应用于目标数据；将一个或多个块提供给3D深度神经网络的输入，并且该3D深度神经网络针对一个或多个块的每个体素预测正则坐标系的正则坐标；以及通过最小化损失函数来优化3D深度神经网络的网络参数值，该损失函数表示3D深度神经网络预测的坐标值和与目标数据相关联的(适当转换的)正则坐标之间的偏差。

在另一方面，本发明可以涉及一种适配为自动确定由3D数据集表示的3D对象(例如3D牙科结构)的正则姿态的计算机系统，该计算机系统包括：计算机可读存储介质，包含有计算机可读程序代码，该程序代码包括至少一个训练后的3D深度神经网络；以及耦合到计算机可读存储介质的至少一个处理器，优选为微处理器，其中，响应于执行计算机可读程序代码，至少一个处理器被配置为执行可执行的操作，包括：将与第一坐标系相关联的3D对象的体素表示的一个或多个体素块提供给第一3D深度神经网络的输入，该第一3D深度神经网络被训练为生成与正则坐标系相关联的正则姿态信息，该正则坐标系是相对于3D对象的部分的位置而限定的；从第一3D深度神经网络的输出接收正则姿态信息，该正则姿态信息包括针对一个或多个块的每个体素的、该体素在正则坐标系中的位置的预测，位置由正则坐标限定；使用正则坐标来确定相对于第一3D坐标系的轴和原点的正则坐标系的轴的取向和正则坐标系的原点的的位置，并且使用取向和位置确定转换参数(优选地旋转、平移和/或缩放参数)，用于将第一坐标系的坐标转换为正则坐标；以及确定3D对象的正则表示(优选地，正则体素表示或正则3D网格表示)，该确定包括将转换参数应用于体素表示的体素的坐标或用于确定该体素表示的3D数据集。

在又一个方面，本发明可以涉及一种适配为自动叠加由第一3D数据集表示的第一3D对象(例如，第一3D牙科结构)和由第二3D数据集表示的第二3D对象(第二3D牙科结构)的计算机系统，该计算机系统包括：计算机可读存储介质，包含有计算机可读程序代码，该程序代码包括至少一个训练后的3D深度神经网络；以及耦合到计算机可读存储介质的至少一个处理器，优选为微处理器，其中，响应于执行计算机可读程序代码，至少一个处理器被配置为执行可执行的操作，包括：将与第一坐标系相关联的第一3D对象的第一体素表示的一个或多个第一体素块以及与第二坐标系相关联的第二3D对象的第二体素表示的一个或多个第二体素块提供给3D深度神经网络的输入；该3D深度神经网络被训练为生成与正则坐标系相关联的正则姿态信息，该正则坐标系相对于3D对象的部分的的位置而限定；从3D深度神经网络的输出接收第一正则姿态信息和第二正则姿态信息，该第一正则姿态信息包括针对一个或多个第一块的每个体素的、该体素在正则坐标系中的第一位置的预测；第二正则姿态信息包括针对一个或多个第二块的每个体素的、该体素在正则坐标系中的第二位置的预测，第一位置和第二位置分别由第一正则坐标和第二正则坐标限定；使用第一正则姿态信息确定第一坐标系中轴的第一取向和轴的原点的第一位置，并使用第二正则姿态信息确定第二坐标系中正则坐标系的轴的第二取向和轴的原点的第二位置；使用第一取向和第一位置来确定第一转换参数(优选地为第一旋转、平移和/或缩放参数)，用于将第一坐标系的坐标转换为正则坐标系的坐标；并且使用第二取向和第二位置确定第二转换参数(优选地第二旋转、平移和/或缩放参数)，用于将第二坐标系的坐标转换为正则坐标；以及确定第一3D对象和第二3D对象的叠加，该确定包括分别使用第一转换参数和第二转换参数来形成第一3D对象的第一正则表示和第二3D对象的第二正则表示。

在实施例中，第一体素表示和第二体素表示中的至少一个可以包括(CB)CT数据，其中，体素值表示放射密度。

在实施例中，第一体素表示和第二体素表示中的至少一个可以包括从表面获得的体素化的表面数据或体积数据，优选为结构化光或激光表面扫描数据，更优选为口内扫描仪(IOS)数据。

另一方面中，本发明还可以涉及一种包括软件代码部分的计算机程序产品，该软件代码部分被配置为当在计算机的存储器中运行时，执行根据上述任何处理步骤的方法步骤。

将参照附图进一步说明本发明，附图将示意性地示出根据本发明的实施例。将理解的是，本发明不以任何方式限于这些特定实施例。

附图说明

图1描绘了根据本发明的实施例的用于使用深度学习来叠加牙颌面3D图像数据的计算机系统的示意性概况；

图2描绘了根据本发明的实施例的用于确定3D牙科结构的正则姿态的系统的示意图；

图3A-3D描绘了示出根据本发明的实施例的确定3D牙科结构的正则姿态的方法的示意图；

图4A-C示出了根据本发明的实施例的系统组件采用的训练和预测数据；

图5描绘了根据本发明的实施例的用于生成正则坐标的3D深度神经网络架构的示例；

图6描绘了根据本发明的实施例的用于分割牙颌面3D图像数据的系统组件的示意性概况；

图7A和7B描绘了根据本发明的实施例的用于分割牙颌面3D图像数据的3D深度神经网络架构的示例；

图8描绘了根据本发明的实施例的用于牙颌面3D图像数据的分类的系统组件的示意性概况；

图9描绘了根据本发明的实施例的用于牙颌面3D图像数据的分类的3D深度神经网络架构的示例；

图10A和10B示出了生成的关键点的示例；

图11描绘了根据本发明的实施例的用于直接确定用于叠加体素表示的转换参数的系统组件的示意性概况；

图12A和12B描绘了根据本发明的实施例的在用于直接生成转换参数的系统组件内采用的和从该系统组件得到的接收到的和转换的数据；

图13描绘了根据本发明的实施例的用于直接推导转换参数的系统组件的3D深度神经网络架构的示例；

图14描绘了根据本发明的实施例的用于选择/确定要应用的转换参数的系统逻辑的流程图；

图15A和15B描绘了根据本发明的各个实施例的根据各个方法的在两个示例性3D牙颌面图像数据集上的转换结果；以及

图16是示出可用于执行本公开中描述的方法和软件产品的示例数据处理系统的框图。

具体实施方式

在本公开中，描述了计算机系统和计算机实现的方法的实施例，计算机系统和计算机实现的方法使用3D深度神经网络对表示3D对象(例如，源自牙颌面复合体的3D牙颌面结构)的不同3D数据集进行全自动、及时、精确和鲁棒的叠加。该方法和系统使得能够使用3D深度神经网络进行至少两个3D数据集的叠加，该3D深度神经网络被训练为确定两个3D数据集的每一个的正则姿态。训练后的神经网络的输出用于确定转换参数，转换参数用于确定叠加的正则3D数据集，其中，正则3D数据集表示3D对象(例如，牙颌面结构)的正则表示。其他3D深度学习网络和/或叠加方案可以用于进一步提高叠加的精确性。该系统和方法将在下面更详细地描述。

图1描绘了根据本发明的实施例的用于使用深度学习来自动叠加表示3D对象的图像数据的计算机系统的高级示意图，在该示例中，3D对象是3D牙颌面复合体。计算机系统102可以包括用于接收至少两个3D数据集、例如第一数据集106和第二数据集108的至少两个输入，该第一数据集106包括与第一坐标系相关联的第一3D对象，例如，第一3D牙科结构，该第二数据集108包括与第二坐标系相关联的第二3D对象，例如，第二3D牙科结构。3D数据集可以表示源自(优选地来自同一患者的)3D牙颌面复合体104的第一3D牙科结构和第二3D牙科结构。第一3D对象和第二3D对象可以具有至少共同的一部分，例如，在3D牙科结构的情况下，为共同的牙齿部分。3D数据集可以由不同的扫描仪(例如，不同的(CB)CT扫描仪和/或不同的光学扫描仪)生成。这样的扫描装置可以包括锥形束CT扫描仪、扇形束CT扫描仪、诸如口内扫描仪的光学扫描仪，等等。

在CBCT扫描仪的情况下，3D数据集可以包括由CBCT扫描仪生成的x射线数据的体素表示。体素表示可以具有预定格式，例如DICOM格式或其派生形式。体素表示限定了预定大小的3D体素空间，例如，400×400×400体素空间，其中，每个体素与特定体积相关联，并且体素在体素空间中的位置可以基于预定坐标系来限定。

替代地，在光学扫描仪的情况下，3D数据集可以包括表面网格数据，例如由限定表面的集合的边连接的3D空间中的点或顶点的集合，而表面的集合又限定3D空间中的表面。3D数据集还可以包括表示由3D坐标系限定的3D空间中的点的点云数据。在实施例中，表示表面网格的3D数据集可以使用口内扫描仪来生成，其中，该3D数据集可以具有预定格式，例如STL格式或其派生形式。同样在这种情况下，3D表面网格表示限定了预定大小的3D空间，其中，点和/或顶点的位置基于预定的坐标系(其不同于用于其他3D数据集的坐标系)。

在一些实施例中，3D牙科结构的3D表面网格可以被分割成单独的分割的(即，分离的)3D牙科元素，例如，牙冠和属于牙龈的表面。将3D表面网格分割为单独的3D表面网格是本领域中公知的技术，如例如WU K等人的Tooth segmentation on dental meshes usingmorphologic skeleton(使用形态学骨骼对牙科网格进行牙齿分割)，Comput Graph 2014年2月，第38卷，199-211所描述的。

3D数据集可以(近似)同时或在不同时间点(使用相同或不同的扫描系统进行手术前和手术后扫描)生成，其中，3D牙颌面复合体的表示可以基于由图像处理软件限定的3D坐标系而限定，使得不同3D集的3D牙颌面复合体中的3D牙颌面结构的取向和/或比例可以显著地变化。3D牙颌面复合体可以包括3D牙颌面结构，简称为3D牙科结构，例如颌、牙齿、牙龈等。

可以提供给计算机系统的输入的3D数据集(在数据格式/模态、坐标系、3D对象的位置和取向、图像数据的质量、当前结构之间的不同重叠量等方面)的较大差异使得3D牙科结构的精确的自动叠加(即，无需任何人工干预的3D牙科结构的叠加)的问题成为重要课题。已知的叠加系统不能以可靠和鲁棒的方式处理这些问题。

为了解决该问题，图1的系统可以包括第一训练后的3D深度神经网络112，其被配置为接收源自(优选地来自一个患者的)3D牙颌面复合体的不同3D数据集的体素表示。3D深度神经网络被训练为确定3D牙颌面复合体中3D牙科结构的正则坐标系中的正则姿态，其中，正则坐标系限定相对于共同的牙颌面结构上的位置(例如，牙弓上的位置)的坐标系。3D深度神经网络可以被配置为确定用于在3D深度神经网络的存储器中编码的3D数据集的体素表示的(在平移、旋转和/或缩放方面的)第一转换参数114。第一转换参数是基于在3D深度神经网络中编码的典型牙颌面特征的平移、取向和/或缩放信息确定的，并且可以用于将基于第一3D数据集的第一坐标系的坐标和基于第二3D数据集的第二坐标系的坐标转换为基于正则坐标系的坐标。如此获得的第一3D数据集和第二3D数据集表示正则坐标系中的叠加的第一3D牙科结构和第二3D牙科结构。

在第一3D数据集和/或第二3D数据集是光学扫描数据的情况下，这些数据可以在提供给第一3D深度神经网络的输入之前被预处理。在此，预处理可以包括将3D扫描数据(例如，3D网格)转换为体素表示，以便其可以由3D深度神经网络进行处理。例如，3D表面网格可以例如以使得3D体素空间至少表示3D表面网格数据中包括的相同的真实世界的体积的方式被体素化。例如，这种体素化的3D表面网格可以具有二进制体素表示，该二进制体素表示具有第一值的默认体素值(例如，“0”)和第二值的体素值(例如，“1”)，在第一值的默认体素值中，网格数据的表面不与代表性体素一致，在第二值的体素值中，网格数据一致。当接收到的3D表面网格限定“开放的”3D表面结构时，可以利用附加表面“闭合”该结构。可以如上所述实现体素化，其中，位于封闭的体积内的体素也可以具有第二值(例如，“1”)。这样，形成体积的体素表示。可以适当地选择分辨率(体素的大小)以便在整个系统中产生精确的结果，同时仍然遵循考虑到例如可用的存储和处理的要求。

在实施例中，可以使用3D深度神经网络，其能够直接基于点云数据来确定光学扫描数据(3D点云)的正则姿态。这种网络的示例是基于多层感知器(MLP)的深度神经网络。MPL深度神经网络架构包括PointNet(Qi,C.R.等人:Pointnet:Deep learning on pointsets for 3d classication and segmentation(Pointnet：对点集进行深度学习以进行3d分类和分割).Proc.Computer Vision and Pattern Recognition(CVPR),IEEE 1(2),4(2017))或PointCNN(Li等人，“PointCNN:convolution onχ-transformed points(PointCNN：在χ转换点上的卷积)”，arXiv：1801.07791v5，2018年11月5日，将在NeuralInformation Processing Systems(NIPS)2018中发表)。这些MLP深度神经网络能够直接处理点云的点。如本申请中所描述的，这样的神经网络可以被训练为基于光学扫描数据来确定正则姿态信息。实际上，这将导致能够省略这种作为预处理步骤的体素化步骤，从而导致更快的处理以及取决于点云数据粒度的更高精确度结果的能力。

进一步的预处理步骤可以包括将第一3D数据集和第二3D数据集划分为预定大小的块。块大小可以取决于第一3D深度神经网络的3D输入空间的大小以及3D深度神经网络的存储空间。

在实施例中，计算机可以通过确定用于第一3D数据集的第一转换参数和用于第二3D数据集的第一转换参数并且通过将如此确定的转换参数应用于第一3D数据集和第二3D数据集来确定叠加的正则第一数据集和第二数据集。3D深度神经网络可以被训练为对于3D数据集中的较大变化非常鲁棒，因为3D深度神经网络是基于大量典型的3D牙颌面结构进行训练的，其中，这些结构显示出较大的空间变化(平移、旋转和/或缩放)。与3D深度神经网络的(有限的)存储器大小有关的问题可以通过基于体素表示的子样本(块)训练深度神经网络来解决。为此，体素表示在被提供给3D深度神经网络的输入之前，首先被划分为预定大小的块。由于正则坐标系是相对于牙颌面结构的已知(预定)标准而限定的事实，因此获得的第一正则3D数据集和第二正则3D数据集被对准，其中，精确度可能取决于训练时间、训练样本变化和/或每个接收到的数据集的可用块。另外，如下面更详细地描述的，考虑到空间变化，特定的网络架构可以用于编码大量的3D图像信息。

在某些情况下，可能有利的是进一步改善(refine)正则3D数据集的叠加的精确度。因此，在一些实施例中，可以使用第一3D数据集和第二3D数据集的(部分重叠的)正则体素表示118并使用另外的第二3D深度学习网络评估正则体素表示的叠加来获得叠加的进一步改善。在这些实施例中，计算机可以确定由叠加的正则第一数据集和第二数据集表示的3D牙科结构限定的体积之间的重叠。在此，重叠可以被限定为由正则坐标系限定的空间内的体积，该体积是第一数据集和第二数据集的3D牙科结构共有的。重叠可用于在第一3D数据集和第二3D数据集的正则体素表示中选择感兴趣的体积(VOI)。这样，第一3D数据集的正则体素表示的第一VOI和第二3D数据集的正则体素表示的第二VOI可以被选择用于第二3D深度神经网络120的输入，该第二3D深度神经网络120被配置为确定第二转换参数122。该3D深度神经网络可以被称为直接转换深度神经网络，因为该神经网络响应于向该神经网络的输入提供正则体素表示而生成转换参数。将第二转换参数应用于(基于第一转换参数而获得的)第一正则3D数据集和第二正则3D数据集的每一个可以进一步提高叠加116的精确度。

替代地和/或另外，在一些实施例中，可以使用第一3D数据集和第二3D数据集的正则体素表示并基于分析叠加算法评估正则体素表示的叠加来获得叠加的进一步改善。特别地，在该实施例中，可以确定第一3D数据和第二3D数据的正则体素表示124。同样在这种情况下，由叠加的正则第一数据集和第二数据集表示的3D牙科结构限定的体积之间的重叠可用于确定第一3D数据集的正则体素表示的一个或多个第一VOI和第二3D数据集的正则体素表示的一个或多个的第二VOI，一个或多个第一VOI和一个或多个的第二VOI可以被提供给第三3D深度神经网络126的输入。该深度神经网络被配置为对3D牙科结构的体素表示的VOI的体素进行分类，并形成不同的分割的3D牙科元素(例如，牙齿、颌骨、牙龈等)的体素表示。另外，在一些实施例中，可以应用后处理步骤，其中，基于分割的3D牙科结构的分类的体素来生成分割的3D牙科元素的分割的3D模型。另外，在一些实施例中，另外的第四3D深度神经网络可以用于根据已知的分类方法标记分割的3D牙科元素的体素表示，例如，唯一且一致地标识各个牙齿。

分割和分类过程可以受益于从第一3D深度神经网络得出的信息。特别地，由第一3D深度神经网络确定和应用初始的转换参数的第一集合可以得到3D数据集的正则体素表示，这允许更精确的分割和/或分类法结果，因为用于分割和/或分类的3D深度神经网络的精确度对于3D输入数据的较大旋转变化相对敏感。

此外，如上所述，第三3D深度神经网络可以使用重叠量来确定在正则坐标系限定的空间的哪个体积中存在相同的第一3D数据集和第二3D数据集的重叠结构(例如，3D牙科元素)。包括第一3D数据集和第二3D数据集中的重叠结构的体积(VOI)的标识可用于确定所谓的关键点。关键点用于标记两个不同数据集中的相同(重叠)结构。因此，关键点的集合标识第一3D数据集中多个点的准确的3D位置，这些点链接到第二3D数据集中相关联的关键点的集合。距离最小化算法可以使用关键点来计算适当的第三转换参数130，用于精确地叠加第一3D数据集和第二3D数据集。

在实施例中，计算机可以使用(基于第一转换参数以及可选地基于第二转换参数和/或第三转换参数确定的)叠加的正则第一3D数据集和第二3D数据集来以预定的数据格式创建单个融合的3D数据集132。3D数据集的融合在本领域中是已知的，参考例如JUNG W等人的文章Combining volumetric dental CT and optical scan data for teethmodeling(结合体积牙科CT和光学扫描数据进行牙齿建模)，Comput Aided Des，2015年10月，第67-68卷，第24-37页。

图2描绘了根据本发明的实施例的用于确定3D牙科结构在正则坐标系中的正则姿态的系统的示意图。系统200包括具有输入和输出的至少一个3D深度神经网络222。该系统可以包括用于基于训练集212来训练3D深度神经网络的训练模块201。另外，该系统可以包括推断模块203，其被配置为接收在某个坐标系中表示3D对象的3D数据集，并确定转换参数，该转换参数用于将该3D数据集的体素的坐标转换为在训练期间在3D神经网络中编码的正则坐标系的正则坐标。

网络可以基于训练集212来训练，该训练集212包括3D图像样本和这些3D图像样本的相关联的正则坐标。训练数据可以包括3D数据集，例如，体素强度值，例如在(CB)CT数据的情况下的射电密度，或者例如在体素化的表面扫描数据的情况下的二进制值。可以表示为每个输入体素的(x，y，z)向量的正则坐标数据可用作目标数据。

可以选择适合于一类3D对象(例如，3D牙科结构)的正则坐标系。在实施例中，在3D牙科结构的情况下，正则坐标系可以被确定为在一致的点(患者间和患者内)处具有原点(0,0,0)。此后，当提及“真实世界的坐标”时，这被认为具有与患者视角相关的轴方向，其中，患者直立，“最低-最高”意味着患者视角的“上-下”，“前-后”意味着从患者视角的“前-后”，“左-右”意味着患者视角的“左-右”。“真实世界”旨在指信息(例如，3D数据集)所来源于的环境。这样的一致点可以例如是最低点(在真实世界的坐标中)-其中，两个最靠前定位的牙齿(FDI系统索引11和21)仍处于接触状态或将处于接触(例如，如果这些牙齿中的任何一个缺失)。考虑到轴的方向，可以分别限定(患者看到的)上下、左右和前后的真实世界的方向，并将其编码为范围从低值到高值的x、y和z值。为了缩放到真实世界的维度，可以采用各种方法，只要在所有训练数据上一致地完成即可，因为相同的缩放比例(scaling)将是3D深度学习网络的输出。例如，可以采用每1mm的真实世界平移为1坐标单位的值。

为了实现对数据和/或数据模态的变化具有鲁棒性的3D深度神经网络，各种各样的训练样本212可以基于包括3D数据集(例如，3D牙科结构的体素表示)以及相关联的正则坐标数据的初始训练集202来生成。为此，训练模块可以包括用于预处理训练数据的一个或多个模块。在实施例中，为了遵守3D深度神经网络222的处理和存储要求，缩小模块204可以用于将3D数据集缩小为缩小的3D数据集以及预定分辨率的相关联的正则坐标。这种缩小操作得到较小的3D图像数据集，例如将每个方向上的体素分辨率缩小到1mm。在另一实施例中，转换模块206可用于通过将随机旋转应用于(缩小的)3D数据和相关联的正则坐标来生成一个3D数据集的不同变化。请注意，可以对任何可用的患者进行此操作，从而有效地提供从其抽取潜在的训练样本的数据池，具有多个患者数据集和每个数据集的多个旋转。

在进一步的实施例中，训练模块可以包括划分模块208，其用于以块(3D图像样本)划分(缩小的)3D数据集和相关联的正则坐标，其中，每个块具有预定的大小并且是3D数据集的总体积的子集。例如，提供给训练模块的输入的3D数据集可以包括400×400×400体素的体积，其中，每个体素在每个正交方向上具有0.2mm的尺寸。该3D数据集可以被缩小为具有例如在每个方向上为1毫米的80×80×80体素的体积的缩小的3D数据集。然后，划分模块可以将缩小的3D数据集划分为预定大小的3D数据块(例如，在每个方向上为1mm的24×24×24体素)。这些块可用于使用正则坐标作为目标来训练3D深度神经网络。在实施例中，划分模块可以包括随机选择器，其用于随机选择形成用于3D深度神经网络222的训练集212的块。

注意，这样的3D深度学习网络将固有地在变化的旋转(来自206)和平移(来自随机选择208)两者上训练。可选地，在另一个实施例中，可以在可以从204生成的多个比例上呈现样本。

通过适当训练后的3D深度学习网络222，新的3D图像数据214(具有任意位置和取向)可以呈现为系统的输入并被适当地处理，类似于训练3D图像数据，更具体地，采用预定缩放比例216，将缩小的数据集划分为预定大小的图像块218，并按3D深度神经网络的要求呈现3D图像块220。通过呈现覆盖接收到的3D图像数据的整个空间至少一次的图像块，可以由3D深度神经网络为3D图像数据集中的每个(下采样率(down-sampled))体素预测正则坐标。

这种预测数据可以被进一步处理224，以便生成转换参数的一个通用的集合，从而限定可以如何将接收到的数据进行转换以其尽可能地与其正则姿态对准。将在下面更详细地描述和说明该处理。注意，通过来自相对较大的真实世界的3D空间的足够的训练样本，可以对于从较小的体积接收到的数据(假设其代表性地包含在训练数据中)确定正则姿态。请注意，实际上，输入数据的分辨率可能约为1.25mm。3D深度神经网络222的预测可以以浮点值产生。

图3A-3D描绘了示出根据本发明的实施例的确定诸如3D牙科结构等3D对象的正则姿态的方法的示意图。图3A示意性地描绘了3D对象(例如，诸如牙齿等牙科对象)的体素表示300。体素可以与强度值(例如，从(CB)CT扫描获得的射电密度)相关联。可替代地，体素可以与二进制值相关联。在那种情况下，体素表示可以是从结构化光扫描或激光表面扫描获得的体素化表面或体素化表面得出的体积的二进制体素表示。3D对象可以具有标识顶部(例如，冠部)、底部(例如，根部)、前部、后部以及左右部分的特定特征。体素表示与第一(正交)坐标系(x，y，z)302相关联，例如扫描软件使用以表示3D空间中扫描的数据的坐标系。这些坐标例如被提供为DICOM图像文件中的(元)数据。3D对象在由第一坐标系限定的3D空间中可以具有一定的取向、位置和大小。但是请注意，此类坐标系可能尚未对应于可以相对于对象而限定的系统，此处用“左”、“右”、“前”、“后”、“下”和“上”图示。使用训练后的3D深度神经网络，3D对象可以(在空间上)“归一化”(即重新定向、重新定位和缩放)308，并基于(正交)正则坐标系而限定。在正则坐标系(x’，y’，z’)306中，归一化的3D对象305可以具有正则姿态，其中3D对象的特定特征可以与正则坐标系的轴对准。因此，系统可以接收在扫描系统限定的坐标系限定的3D空间中具有一定取向、位置和大小的3D牙科结构的体素表示，并且确定3D对象的正则体素表示，其中3D对象在正则坐标系中被限定，在该正则坐标系中对象的大小被缩放，并且在该正则坐标系中，3D牙科结构的特定特征与正则坐标系的轴对准。

图3B描绘了3D深度神经网络318，其可以被训练为接收3D对象的体素表示310的体素，其中体素可以具有由坐标系302(x，y，z)限定的一定位置。3D深度神经网络可以被配置为生成与体素表示相关联的所谓的正则姿态信息303。正则姿态信息可包括针对体素表示的每个体素304(x，y，z)的在由正则坐标系限定的空间中的坐标(x’，y’，z’)的预测。正则坐标系可以相对于可以可靠地标识的牙颌面结构的典型位置、取向和比例(例如，牙弓的特征)来限定。得到这种正则坐标系所需的信息可以在网络的训练阶段期间被编码在3D深度神经网络中。这样，正则姿态信息可用于将表示相同牙颌面结构的不同种类和/或模态的3D数据以相同的相对位置、取向和比例来放置。

因此，对于每个输入体素304，由3D深度神经网络生成三个对应的输出值314、324、334，分别包括对正则坐标系中输入体素的x’、y’和z’坐标的值的预测。在实施例中，正则姿态信息可以包括三个3D体素图312、322、332，其中每个3D体素图将在3D神经网络的输入处的体素表示的体素链接到正则坐标。

在将体素表示提供给3D深度神经网络的输入之前，体素表示可以被划分为体素块的集合(此处以316表示，以下简称为“块”)，其中，体素块的尺寸与3D深度神经网络的输入空间的尺寸匹配。块大小可能取决于3D深度神经网络的数据存储能力。因此，3D深度神经网络可以处理体素表示的每个块中的体素，并为每个块的体素产生正则姿态信息，即，对于块中的每个体素的正则坐标系的坐标(x'，y'，z')的预测。在实施例中，3D深度神经网络可以生成三个体素图312、322、332，第一体素图312包括针对提供给3D深度神经网络的输入的块中的每个体素的对应的x'坐标；第二体素图322包括针对块中的每个体素的y'坐标；第三体素图332包括包括针对块中的每个体素的z'坐标。

图3C示意性地示出了3D对象300的体素表示，该3D对象300被提供给3D深度神经网络的输入，并且基于第一坐标系(x，y，z)302(例如，用于产生3D图像的扫描仪的图像处理软件使用的坐标系)而限定。这些坐标或用于确定这些坐标的信息可以作为元数据被包括在数据文件中，例如DICOM文件中。基于由3D深度神经网络生成的正则姿态信息，可以生成3D对象在正则坐标系中的正则姿态的预测。因此，正则姿态信息350可以将第一坐标系中的每个体素的位置(x，y，z)链接到正则坐标系中的位置(x'，y'，z')。该信息可以用于确定转换360，其允许系统将在第一坐标系中限定的3D对象转换为其在正则坐标系中限定的正则姿态362。

姿态信息可以用于确定与正则坐标系的轴(正则轴)相关联的取向和比例因子。在此，取向可以是正则轴在由第一坐标系限定的空间中的取向。姿态信息还可以用于确定正则坐标系的原点的位置。

正则轴的取向可以基于由3D深度神经网络确定的3D体素图中的一个或多个体素中的(局部)梯度来确定。例如，对于与正则坐标的x’分量相关联的第一3D体素图的每个或至少多个体素，可以确定局部梯度。局部梯度可以表示为由第一坐标系限定的x、y、z空间中的3D向量。向量的方向表示正则x'轴在体素的位置处的取向的预测。此外，向量的长度表示与正则x'轴相关联的比例因子的预测。在实施例中，与正则x'轴相关联的取向和比例因子的预测可以基于第一3D体素图的x'值来确定。例如，可以确定第一3D体素图的体素的预测的统计上具有代表性的度量，例如中值或平均梯度。在实施例中，第一3D体素图的x'值可以被预处理，例如被平滑和/或滤波。例如，在实施例中，中值过滤器可以用于去除(局部)离群值(outlier)。以相同的方式，正则y'轴的取向和比例因子的预测可以基于第二3D体素图中的y'值确定，并且正则z'轴的取向和比例因子的预测可以基于第三3D体素图中的z'值确定。正则x'，y'，z'轴的预测的取向可以被后处理，以确保这些轴正交或甚至标准正交。各种已知方案(例如，Gram-Schmidt过程)可以用于实现这一目标。可以通过比较接收到的坐标系302与从预测导出的坐标系来获得旋转和缩放参数。

可以通过确定提供给3D深度学习网络的输入的体素表示的中心的正则坐标的预测来获得正则坐标系的原点的位置(就第一坐标系的空间中的平移向量而言)。这些坐标可以基于例如第一3D体素图的预测的x'值、第二3D体素图的y'值和第三3D体素图的z'值的平均值或中值而确定。可以例如使用简单的减法基于块的中心的预测的正则坐标(xo’，yo’，zo’)和基于第一坐标系的块的中心的坐标来确定平移向量。可替代地，可以通过对这样的块的多个预测的聚集来确定正则坐标系的原点，后者有效地处理为接收到的体素表示的相同大小的空间确定的正则坐标。上述过程可以针对3D数据集的每个或至少大部分的块重复。为每个块确定的信息(正则坐标系的取向、比例和原点)可用于获取提供精确预测的平均值。

因此，图2和图3中描绘的系统和方法提供了确定3D牙科结构的正则姿态的有效方法。如图3D所示，这些方法包括计算机的处理器将与第一坐标系相关联的3D牙科结构的体素表示提供给3D深度神经网络的输入的第一步骤380，该神经网络被配置为生成与第二正则坐标系关联的正则姿态信息。此后，在步骤382中，处理器可以从3D深度神经网络的输出接收正则姿态信息，其中，对于体素表示的每个体素，正则姿态信息包括对该体素的正则坐标的预测。随后，处理器可以执行处理步骤384，其中，正则姿态信息用于确定正则坐标系的轴的取向(以及在适用的情况下的缩放比例)(例如，通过确定表示体素位置的局部梯度的向量)和正则坐标系的原点的位置(例如，通过确定表示平均值(x'，y'，z')的向量，从而确定到正则原点的平均3D距离)，并且其中，该取向和位置(以及在适用的情况下的缩放比例)随后用于确定转换参数，转换参数用于将第一3D坐标系的坐标转换为第二正则坐标系的坐标。此后，在步骤386中，处理器通过将转换参数应用于接收到的3D数据集来确定3D牙科结构在由第二正则坐标系表示的空间中的正则姿态。在3D数据集是体素表示的情况下，参数可以被应用于体素。可替代地，在3D数据集是网格表示的情况下，参数可以被应用于网格的坐标。

这样，可以实现3D对象(例如，3D牙科结构)的正则表示。该方法可以用于将与3D对象相关联的不同3D数据模态转换为3D对象的正则姿态，3D对象的正则姿态可以在不同3D数据集的叠加过程中使用。可替代地和/或附加地，该方法可以用作在将3D数据集提供给一个或多个3D深度神经网络的3D输入之前的预处理步骤，该一个或多个3D深度神经网络被配置为分割3D对象和(可选地)确定3D对象的分割的部分的分类。这样的预处理步骤实质上提高了3D对象的分割和分类的精确性(和/或减少了对于这种3D深度神经网络的相同精确度的训练时间或存储要求)，因为如果由输入到系统的3D数据集表示的3D对象的姿态偏离归一化的姿态太大(尤其是相对于取向)，则这类训练后的神经网络的精确性会受到影响。

图4A-C示出了可以由参考图3A-3D所述的方法使用的训练目标和结果的图示。图4A描绘了3D数据集的三个切片400_1-3，在此示例中，为3D牙科结构的CBCT扫描以及可以用于训练3D深度神经网络的x'、y'和z'坐标的3D体素图的相关切片。这些3D体素贴图包括正则x'坐标402₁、正则y'坐标402₂和正则z'坐标402₃的期望预测。灰度值根据正则坐标系对坐标的(编码的)值的梯度进行可视化。坐标(x，y，z)基于与CBCT扫描相关联的坐标系指示3D牙科结构的体素的位置。可视化的轴(包括其方向)在每张图片的左上方表示。同样值得注意的是，显示的梯度的灰度值已被适当地缩放，以使在图4A-C的所有图中，相同的值具有相同的灰度值。这允许更好地视觉比较什么是朝向如编码(用于训练)或预测的正则坐标系的有效平移。最后请注意，所有可视化都是单个中间“切片”(有效地是2D图像数据的像素)和关联的体素图的2D表示，该单个中间“切片”从实际采用的3D数据集中切出，如由每个图示左上方可见的切片号表示。

为了训练系统的目的，如图4B所示，表示3D牙科结构的3D数据集可以归属于正则坐标系。在这些图示的情况下，对于显示梯度的图示，黑色的值为-40.0mm，白色的值为+40mm，有效地以该患者扫描的中心为原点(0,0,0)。该数据(3D图像数据和正则系统的表示)已被适当地缩放，如处理器204将得到的那样。然后可以旋转这些数据(例如，采用线性或其他插值方法)，从而产生如406的图示所示的3D数据。取决于执行此旋转的确切方法，图像空间的大小也可以扩展为包括接收到的3D图像数据集的所有体素，在这些图示中不是这种情况。

图4B示出了训练数据408，其可以从来自随机旋转的输入体素表示406的适当大小的块412(在此情况下时具有24×24×24体素的尺寸的子样本)的随机选择(可以由处理器208执行)得到。请注意，当如408所完成的在同一y-z视图(体素的3D立方体的中间y-z切片)中可视化正则坐标系的所有三个编码方向时，都可以看到梯度方向，其可以有效地编码(在该2D可视化的情况下)3D方向向量的2D分量(在y-z平面中)的方向，该3D方向向量编码正则坐标系的轴的方向。同样，每个体素的值根据正则坐标系有效地编码体素的x'、y'和z'坐标。请注意，在处理例如整个3D预测的数据集时，每个轴的3D向量可以按照正则坐标系确定。用于训练的子样本的选择可以以使得选择的较小尺寸的样本仅包括作为接收到的3D图像数据集的一部分的体素(即，不包括由于施加的旋转所导致的沿边缘的体素的“空”补丁，如从图示可见)的方式进行。

图4C示出了在调整大小之后的新输入416(可以从处理器216得到)。为了说明的目的，该输入已经被任意旋转。出于图示418和420的目的，仅x-y视图(切片)已被可视化。集合418示出了预测的正则坐标x’、y’和z’的切片。可以看出，接收到的图像数据已被划分为块(或子样本)，在块上执行了坐标预测，并将这些预测块放回总的接收到的3D图像集空间中(可以从图像中可见的类似正方形的结构看出，表示块的尺寸)。注意，这有效地说明了对旋转、平移和可选地缩放用于转换到正则坐标系的参数的预测可以对大小为30×30×30mm的3D图像数据执行。该图还说明，训练后的网络再次对“空”数据的补丁相对鲁棒，“空”数据补丁是从为该可视化采用的旋转产生的。(即，在为了这些图示的目的而训练的网络的情况下，赋予“空”数据始终为0的值)

420所示的是如果416是训练数据则其将成为的编码的坐标值，或者是应从3D深度神经网络产生的期望的“目标”值。可以看出，梯度的一般值(指示每个体素到原点的距离)和一般方向非常相似。在真实世界的数据被旋转的情况下，图示中所见的“空”补丁将不会呈现。该系统可以在处理器224内执行例如以下操作：对预测的坐标数据的3D平均过滤418、去除离群值和/或用于平滑结果值的其他方法。预测的坐标值的代表性度量(例如，平均值或中值)可用于确定体素表示416的中心相对于正则坐标系的位置。平移可以基于体素表示416的中心相对于接收到的坐标系的位置和相对于正则坐标系的位置之间的差来确定。

3D梯度推导算法(在计算上相对便宜)可以在每个“值的轴立方体”中产生三个附加的值立方体，从而有效地为每个“轴立方体”产生描述轴方向的向量的三个分量。这可以产生每个体素的所有的x轴、y轴和z轴的方向的方向3D向量。可以对期望的坐标轴的这些向量确定代表性度量(例如，平均值或中值)。如果适用，每个轴的这些向量可以被转换为其等效的单位向量。另外，该系统可以确保将这三个向量转换为它们的三个中的最接近完美的正交集合，从而使每个预测的轴的第一向量集合与所得的正交集合之间的角距离的和最小。

从正则轴的这三个(有效)预测的方向，可以计算适当的转换参数，其考虑到接收到的3D图像数据集朝正则取向的旋转，作为正则姿态的一部分。随后，系统可以确定对于接收到的3D图像数据集的每个轴，到正则原点的平均距离是多少。据此，可以计算用于平移接收到的3D图像数据集的转换参数，从而有效地确定正则原点应在接收到的3D图像数据集内的位置(或其相对于接收到的3D图像数据集的位置)，或者相反地，确定正则位置应在坐标系中的位置。

在另一个实施例中，可以在变化的比例上训练3D深度神经网络，并且可以采用所得到的预测值的梯度的大小来确定接收到的3D图像数据集的比例。这可以用于计算朝向接收到的数据的期望的缩放比例的转换参数。

图5描绘了根据本发明的实施例的用于确定正则坐标的3D深度神经网络架构的示例。3D深度神经网络可以具有类似于3D U-net的架构，如本领域中公知的，3D U-net实际上是2D U-net的3D实现。

该网络可以使用各种3D神经网络层来实现，例如(膨胀的)卷积层(3D CNN)、3D最大池化层、3D反卷积层(3D de-CNN)和密集连接层。这些层可以使用各种激活函数，例如线性、tanh、ReLU、PreLU、Sigmoid等。3D CNN和de-CNN层的过滤器数量、过滤器大小和子采样参数可以变化。3D CNN和de-CNN层以及密集连接层的参数初始化方法可以变化。可以在整个架构中使用丢弃层(Dropout layer)和/或批量归一化(batch normalization)。

遵循3D U-net架构，在训练过程中，3D CNN和3D de-CNN层中的各种过滤器学习对将有助于预测精确性的有意义的特征进行编码。在训练期间，3D图像数据的匹配集502和编码的匹配正则坐标540用于从3D图像数据的匹配集朝向编码的匹配正则坐标的预测进行优化。损失函数可以用作要被最小化的度量。通过使用诸如SGD、Adam等优化器，可以辅助该优化工作。

这样的架构可以采用各种分辨率比例，通过最大池化层或(扩张和/或子采样)卷积层对来自3D CNN层的先前集合的结果504、508、512进行有效地缩小506、510、514。术语“有意义的特征”是指与确定目标输出值相关的信息的(连续)派生，但是也通过3D de-CNN层进行编码，3D de-CNN层在采用过滤器的同时有效地进行放大。通过组合520、526、532从此类3D de-CNN层518、524、534产生的数据与来自以相同分辨率运行的“上一个”3D CNN层的数据(512到520、508到526、以及504到532)，可以实现高度精确的预测。在整个放大路径中，可以使用附加的3D CNN层522、528、534。基于到来的3D CNN层534的过滤器结果，通过使用蒸馏(distill)例如每个体素的逻辑的密集连接层，可以在网络的参数内编码附加逻辑。

输入样本在被用于推断，并且以使得验证产生足够精确的结果的方式已被训练为具有编码的内部参数时，可以被呈现，并且3D深度学习网络可以产生每个体素的预测的正则坐标542。

图6描绘了根据本发明的实施例的用于分割牙颌面3D图像数据的系统组件的示意性概况。基于深度学习的自动分割的方法和系统在以下欧洲专利申请中进行了描述：No.17179185.8(标题为Classification and 3D modelling of 3D dento-maxillofacialstructures using deep learning methods(使用深度学习方法对3D牙颌面结构进行分类和3D建模))，通过引用将其并入本申请。

特别地，计算机系统602可以被配置为接收牙颌面结构的3D图像数据栈604。该结构可以包括例如颌结构、牙齿结构和神经结构。3D图像数据可以包括体素，即，与体素值相关联的3D空间元素，体素值表示辐射强度或密度值，例如灰度值或颜色值。优选地，3D图像数据栈可以包括根据预定格式(例如，图像格式或其派生形式)的CBCT图像数据。

特别是在CBCT扫描中，放射密度(以Hounsfield单位(HU)测量)不精确，因为扫描中的不同区域根据它们在被扫描器官中的相对位置而以不同的灰度值出现。通过CBCT和医学级CT扫描仪两者从同一解剖区域测量的HU并不相同，因此对于确定特定于位置的放射成像标识的骨骼密度是不可靠的。

此外，牙科CBCT系统没有采用标准化的系统来缩放表示重建的密度值的灰度级。这样，这些值是任意的，因此无法评估骨骼质量。在没有这种标准化的情况下，很难解释灰度级，或者无法比较不同机器所产生的值。

牙齿和颌骨结构具有相似的密度，因此计算机很难区分属于牙齿的体素和属于颌的体素。另外，CBCT系统对所谓的光束硬化非常敏感，光束硬化会在两个高衰减对象(例如，金属或骨骼)之间产生深色条纹，而周围是明亮条纹。

由于上述原因，并且如将在下文中更详细地描述的，对于叠加系统而言，利用如在此参照图6描述的系统组件是特别有益的。

该系统组件可以包括分割预处理器606，其用于在3D图像数据被馈送到第一3D深度神经网络612的输入之前对该3D图像数据进行预处理，该第一3D深度神经网络被训练为产生分类的体素的3D集合作为输出614。这样的预处理可以例如包括将体素值归一化到对神经网络更有利的范围。如将在下文中更详细地描述的，可以根据预定的训练方案来训练3D深度神经网络，使得训练后的神经网络能够将3D图像数据栈中的体素精确地分类为不同类别的体素(例如，与牙齿、颌骨和/或神经组织相关联的体素)。3D深度神经网络可以包括多个连接的3D卷积神经网络(3D CNN)层。

该计算机系统还可以包括分割后处理器616，其用于使用由3D深度神经网络分类的体素来精确地重建牙颌面结构的不同部分(例如，牙齿、颌骨和神经)的3D模型。分类的体素614可以包括体素的集合，其表示例如被分类为属于牙齿、颌或神经结构的所有体素。以使得各个牙齿和/或颌(例如，上颌、下颌)由单独的3D模型表示的方式来创建这些类型的结构的3D数据可能是有益的。这可以通过体积重建620来实现。对于分离属于各个牙齿的体素集合的情况，这可以通过3D二元侵蚀(binary erosion)、3D标记创建和3D分水岭(watershedding)(的组合)来实现。对于分离成上颌和下颌部分的组合，可以找到沿上下(真实世界的坐标系)轴距原点的距离，在该距离处，垂直于该方向的平面中的体素之和与沿同一轴的其他相交平面相比，处于最小。采用该距离，可以划分成上颌和下颌部分。在另一个实施例中，通过将对应的体素分类为单独的颌类别，可以由深层网络自动划分颌。分类的体素的其他部分(例如，被3D深度神经网络分类为属于神经的体素)可以通过使用插值函数618进行后处理，并被存储为3D神经数据622。分割后，对牙颌面结构的各个部分的3D数据进行后处理，神经、颌和牙齿数据622-626可以在单独的3D模型628中被组合和格式化，这些模型精确地表示被馈送到计算机系统的输入的3D图像数据中的牙颌面结构。请注意，分类的体素614以及3D模型628在与输入数据604相同的坐标系中被限定为。

为了使3D深度神经网络对例如当前的CBCT扫描数据中存在的变化具有鲁棒性，可以使用模块638来训练3D深度神经网络，以利用由3D图像数据表示的牙颌面结构的各部分的3D模型。3D训练数据630可以被正确地对准到在604处呈现的CBCT图像，对于该CBCT图像，相关联的目标输出是已知的(例如，牙颌面结构的3D CT图像数据以及牙颌面结构的相关联的3D分割表示)。常规3D训练数据可以通过手动分割输入数据来获得，这可能表示大量的工作。另外，手动分割导致要使用的输入数据的可重复性和一致性低。

为了解决这个问题，在实施例中，可以代替手动分割的训练数据或除了手动分割的训练数据之外，使用光学产生的训练数据630，即，牙颌面结构的(部分)的精确的3D模型。用于产生训练数据的牙颌面结构可以使用3D光学扫描仪来扫描。这种光学3D扫描仪在本领域中是已知的，并且可以用于产生高质量的3D颌和牙齿表面数据。3D表面数据可以包括3D表面网格632，其可以被填充(确定哪些特定体素是网格所包围的体积的部分)并且由体素分类器634使用。如此，体素分类器能够生成高度精确的分类的体素636用于训练。另外，如上所述，训练模块也可以使用手动分类的训练体素来训练网络。训练模块可以将分类的训练体素用作目标，并且将关联的CT训练数据用作输入。

图7A和7B描绘了根据本发明的各种实施例的用于分割牙颌面3D图像数据的3D深度神经网络架构的示例。如图7A所示，该网络可以使用3D卷积神经网络(3D CNN)来实现。卷积层可以使用与层中的神经元相关联的激活函数，例如，sigmoid函数、tanh函数、relu函数、softmax函数等。可以使用多个3D卷积层，其中，可以在实施中使用层数及其限定参数的微小变化(例如，不同的激活函数、核数量和大小)以及附加功能层(例如，丢弃层和/或批量归一化)，而不会失去3D深度神经网络设计的本质。

网络可以包括多个卷积路径，在该示例中为三个卷积路径，与3D卷积层的第一集合704相关联的第一卷积路径、与3D卷积层的第二集合706相关联的第二卷积路径以及3D卷积层的第三集合708。执行数据处理的计算机可以向卷积路径的输入提供3D数据集702，例如CT图像数据。3D数据集可以是3D牙科结构的体素表示。

在图7B中更详细地示出了不同路径的功能。如该图所示，体素表示的体素可以被提供给3D深度神经网络的输入。体素表示的体素可以限定预定的体积，其可以被称为图像体积701₄。计算机可以按第一体素块划分图像体积，并将第一块提供给第一路径的输入。第一路径703₁的3D卷积层可以对第一体素块701₁上执行3D卷积操作。在处理期间，第一路径的一个3D卷积层的输出是第一路径中的随后的3D卷积层的输入。这样，每个3D卷积层可以生成表示被提供给第一路径的输入的第一像素块的部分的3D特征图。因此，被配置为生成这样的特征图的3D卷积层可以被称为3D CNN特征层。

如图7B所示，第二路径703₂的卷积层可以被配置为处理体素表示的的第二体素块701₂，其中，第二体素块表示相关联的第一体素块的下采样版本，并且其中，第一体素块和第二体素块具有相同的中心原点。第二块的表示体积大于第一块的体积。此外，第二体素块表示相关联的第一体素块的下采样版本。下采样因子可以是任何适当的值。在实施例中，下采样因子可以在20到2之间选择，优选地在5到3之间选择。

第一路径703₁可以限定3D CNN特征层(例如5-20层)的第一集合，其被配置为以目标(即，已分类的图像体积的体素)的体素分辨率处理输入数据(例如，图像体积中预定位置处的第一体素块)。第二路径可以限定3D CNN特征层(例如5-20层)的第二集合，其被配置为处理第二体素块，其中，第二体素块701₂中的每个块具有与来自第一体素块701₁的其相关联的块相同的中心点。此外，以低于701₁的分辨率的分辨率处理第二块的体素。因此，第二体素块表示在真实世界维度上比第一块更大的体积。这样，第二3D CNN特征层处理体素以便生成3D特征图，该3D特征图包括有关由第一3D CNN特征层处理的关联的体素的直接相邻者(direct neighbourhood)的信息。这样，第二路径使3D深度神经网络能够确定上下文信息，即，关于呈现给3D深度神经网络的输入的3D图像数据的体素的上下文(例如，其周围)的信息。

以类似的方式，可以利用第三路径703₃来确定第一体素块701₃的其他上下文信息。因此，第三路径可以包括3D CNN特征层(5-20层)的第三集合，其被配置为处理第三体素块，其中，第三体素块701₃中的每个块具有与来自第一体素块701₁和第二体素块701₃的其相关联的块相同的中心点。此外，以低于第一体素块和第二体素块的分辨率的分辨率处理第三块的体素。该下采样因子可以再次设置为适当的值。在实施例中，下采样因子可以在20到3之间选择，优选地在16到9之间选择。

通过使用三个路径或更多个路径，可以并行处理3D图像数据(输入数据)和有关3D图像数据的体素的上下文信息。上下文信息对于分类牙颌面结构很重要，牙颌面结构通常包括紧密排列的难以区分的牙科结构。

然后，3D CNN特征层的各集合的输出被合并被馈送到完全连接的3D CNN层410的集合的输入，完全连接的3D CNN层被训练为导出体素412的预期分类，体素412在神经网络的输入处被提供并由3D CNN特征层进行处理。

3D CNN特征层的集合可以(通过其可学习的参数)被训练为导出并传递可以从其特定输入确定的最佳有用信息，全连接层对参数进行编码，这些参数将确定来自三个先前路径的信息应该被组合以提供最佳的分类的体素712的方式。这里，全连接层的输出(最后一层)可以为每个体素提供多个激活。这种体素激活可以表示概率度量(预测)，该概率度量限定体素属于多个类别(例如，牙科结构类别，例如牙齿、颌和/或神经结构)之一的概率。对于每个体素，与不同牙科结构相关联的体素激活可以被阈值化以获得分类的体素。此后，可以在图像空间714中呈现属于不同牙科结构类别的分类的体素。因此，3D深度神经网络的输出是与输入处的体素的图像空间相对应的图像空间中的分类的体素

请注意，尽管关于图6和图7所述的分割3D深度神经网络可能对于3D图像数据空间上的平移是固有不变的，但可能有利的是采用来自处理器114的信息来应用初始预对准步骤124以至少调整旋转(尽管相对粗略)以获得正则姿态。通过真实世界的正交方向(例如，患者上下、左右和前后)存在于在预限定的正则方向上使用的3D图像数据中(例如，分别为内部(3D数据集)表示z方向上下、x方向左右和y方向前后)，分割3D深度神经网络所需的存储带宽可以减少，训练时间可以减少并且分割的精确性可以提高。这可以通过利用考虑到所述正则旋转的旋转而预对准的所述3D数据集而特别地训练数据和对数据进行推断(对非训练样本的预测)来完成。

图8描绘了根据本发明的实施例的用于3D牙颌面3D图像数据的分类的系统组件的示意性概况。基于深度学习的自动分类的方法和系统在以下的欧洲专利申请中进行了描述：No.17194460.6，标题为Automated classification and taxonomy of 3D teeth datausing deep learning methods(使用深度学习方法对3D牙齿数据进行自动分类和分类法)，通过引用将其并入本申请。系统800可以包括两个不同的处理器，用于执行训练3D深度神经网络的过程826的第一训练模块802以及用于基于新的输入数据816执行分类过程的第二分类模块814。

如图8所示，训练模块可以包括一个或多个旨在用于训练的数据源的存储库或数据库806、812。这样的存储库可以经由输入804来获得，该输入804被配置为接收输入数据(例如，包括牙列的3D图像数据)，输入数据可以以各种格式与相应的所需标签一起存储。更具体地，至少第一存储库或数据库806可以用于存储牙列的3D图像数据和该牙列内的牙齿的相关联的标签，其可以由计算机系统808使用，该计算机系统被配置为分割和提取表示可以用于训练的各个牙齿的感兴趣的体积810。在体素(例如，(CB)CT)数据的情况下，这种系统可以如关于图6和图7所描述的那样实现，或者，这种系统例如可以是各个牙冠的3D表面网格，如可以从包括牙齿和牙龈的3D表面网格(例如，IOS数据)中分割出来的。类似地，第二存储库或数据库812可以用于存储其他格式的3D数据，例如通过光学扫描生成的3D表面网格和在网络训练期间可以使用的各个牙齿的标签。

3D训练数据可以被预处理826为针对3D深度神经网络828优化的3D体素表示(体素化)。训练过程可以在该阶段结束，因为3D深度神经网络处理器826可能仅需要对各个牙齿的样本进行训练。在实施例中，诸如3D表面网格等3D牙齿数据也可以基于源自被适当标记的完整的牙列扫描(808至812)的分割的3D图像数据来确定。

当使用用于对新的牙列816(的部分)进行分类的分类模块800时，在将物理牙列转换为针对3D深度神经网络828而优化的3D表示时仍可以采用多种数据格式。如上所述，分类系统可以例如利用牙列的3D图像数据106、108，并使用计算机系统820(其是602)，该计算机系统820被配置为分割和提取包括各个牙齿的感兴趣体积822(其是626)，类似于训练处理器808。可替代地，可以使用另一表示，例如，从光学扫描产生的每个牙齿的表面网格824。再次注意，完整的牙列数据可用于提取感兴趣的体积(820至824)以外的其他3D表示。

可以进行预处理826为3D深度神经网络828所要求的格式。注意，在整个叠加系统的上下文中，在接收到的3D图像数据集例如是(CB)CT数据的情况下，网络828对分割的数据的分类可以直接利用在体积重建620中生成的数据(的子集)来完成。在接收到的3D图像数据集为例如IOS数据的情况下，828进行的分类可以直接对在3D表面网格分割和冠部的体素化之后的(数据的子集)上执行。

3D深度神经网络的输出可以被馈送到分类后处理步骤830，该步骤830被设计为利用考虑到牙列的知识(例如，每个单个牙齿索引在单个牙列中只能出现一次的事实)，以确保在应用于牙列的牙齿的标签的集合上的分类的精确性。这可能导致系统输出每个标识出的单个牙齿对象的牙齿标签。在实施例中，为了增加在3D深度神经网络的附加训练之后的未来的精确性，正确的标签可以被反馈到训练数据中。

图9描绘了根据本发明的实施例的用于牙颌面3D图像数据的分类的3D深度神经网络架构的示例。该网络可以使用3D卷积层(3D CNN)来实现。卷积可以使用激活函数。可以使用多个3D卷积层904-908，其中，在实现中可以使用层数及其限定参数的微小变化(例如，不同的激活函数、核数量、子采样的使用和大小)以及附加功能层(例如，丢弃层和/或批量归一化层)，而不会失去3D深度神经网络设计的本质。

部分地为了减小3D深度神经网络内的数据的内部表示的维度(dimensionality)，可以采用3D最大池化层910。在网络的这一点上，内部表示可以被传递到密集连接层912，该层旨作为用于将3D空间中的表示转变为潜在标签、特别是牙齿型标签的激活的中间媒介。

最终层或输出层914可以具有与期望数量的编码的标签相同的维度，并且可以用于确定每个潜在标签918的激活值(类似于预测)。

可以利用数据集来训练网络，该数据集具有作为3D CNN层的输入的3D数据的预处理的数据集902，即牙齿的3D体素表示。对于每个样本(其是单个牙齿的3D表示)，正确的标签916的匹配表示可以用于确定期望输出和实际输出914之间的损失。该损失可以在训练期间用作在3D深度神经网络的层内调整参数的度量。在训练期间可以使用优化器函数(Optimizer function)，以助于训练工作的效率。可以对网络进行训练达任意数量的迭代，直到内部参数导致期望的结果精确度为止。在被适当地训练时，未标记的样本可能被呈现为输入，并且3D深度神经网络可用于得出每个潜在标签的预测。

因此，当3D深度神经网络被训练为将牙齿的3D数据样本分类为多种牙齿类型中的一种(例如，在成年人的健康牙列的情况下，为32种牙齿类型)时，神经网络的输出将是激活值和相关联的潜在牙齿类型标签。具有最高激活值的潜在牙齿类型标签可以向分类系统指示牙齿的3D数据样本最有可能表示该标签所指示的类型的牙齿。具有最低或相对较低的激活值的潜在牙齿类型标签可以向分类系统指示牙齿的3D数据集最不可能表示这种标签所指示的类型的牙齿。

请注意，可能需要基于输入体积的类型(例如，输入的体素表示是完整的牙齿体积，或者输入的体素表示仅表示牙冠)训练各个的具体网络模型(在具体训练后具有不同的最终参数的相同架构)。

还应注意，尽管关于图8和图9所描述的分类3D深度神经网络(如分割3D深度神经网络的情况)可能对于3D图像数据空间上的平移是固有不变的，但是可能有利的是使用来自处理器114的信息以应用初始预对准步骤124以至少调整旋转(尽管相对粗略)以获得正则姿态。通过真实世界的正交方向(例如，患者上下、左右和前后)存在于在预限定的正则方向上使用的3D图像数据中(例如，分别为内部(3D数据集)表示z方向上下、x方向左右和y方向前后)，分类3D深度神经网络所需的存储带宽可以减少，训练时间可以减少并且分类的精确性可以提高。这可以通过利用考虑到所述正则旋转的旋转而预对准的所述3D数据集而特别地训练数据和对数据进行推断来完成。

图10A和图10B示出了在分别包括分类信息和不包括分类信息的两个示例性3D牙颌面数据集中的生成的关键点的示例。至少根据限定表示各个牙齿或牙冠的结构的3D图像数据(表面体积)，并且根据例如在(CB)CT数据的情况下如关于图6和图7所述的处理，或在例如IOS数据的情况下，通过采用对各个牙冠的表面网格的更普遍的确定，可以确定表征表面的关键点。实际上，这可以被视为减少步骤，用于将表面网格中的所有可用点减少为最相关(最显著)点的集合。这种减少是有益的，因为它减少了处理时间和存储要求。另外，可以选择用于确定这种点的方法，即使用于生成的输入是稍微不同的3D表面网格(的集合)(仍表示相同的结构)，预期这些方法也产生大致相同的点集合。本领域中用于从表面网格确定关键点的公知方法通常包括确定局部或全局表面描述符(或特征)，该表面描述符(或特征)可以是手工制作的(手动制造的)和/或机器学习的并且对跨(略微变化的)输入表面网格的可重复性是被优化的，并且可以针对性能(确定显著点或关键点的速度)进行优化，例如，如以下文献所教导的：TONIONI A等人，Learning to detect good 3D keypoints(学习检测良好的3D关键点)，Int J Comput Vis.2018，第126卷，第1-20页。这种特征的示例是表面曲率的局部和全局最小值或最大值。

图10A和图10B中示出了两个接收到的3D图像数据集的计算机渲染，其中包括限定表面的网格的边缘和顶点，因此示出了限定表面的点。顶部四个对象是从口内扫描中得出的被单独处理并且分割的牙冠。底部的四个对象是根据参考图6和图7的方法从CBCT扫描获得的各个牙齿。这两个四个牙齿的集合是在大约同一时间源自同一患者。它们已经通过处理器(如上面参照图3、图4和图5更详细地描述的，为如前所述的确定正则姿态的处理器114)而被粗略地预对准。根据114之后的信息，确定重叠的体积，并且3D结构被分割为表示各个牙齿的单独的表面网格。另外，在图10B的情况下，根据参照图8和图9描述的方法执行了各个牙齿的3D图像数据的分类。

特别地，在图10A中，已经通过根据格式P[接收到的数据集的编号]-[点的编号]的标签对点进行了可视化；为了可视化的目的，已经减少了点数。可以看出，关键点生成之后每个接收到的3D图像数据集具有其自身的根据体积的显著特征的关键点集，其中，将用关键点(尽管被任意编号)标记沿表面的相同点。请注意，将能够在原始3D数据集中将每个单个牙齿的此类点再分组，但这不会产生额外的好处，因为在不同的3D数据集中无法标识(相同)的单个牙齿。

在图10B中，采用根据附加分类步骤的信息，标签的格式已经可视化为P[接收到的数据集的编号]-[标识的牙齿的索引]-[点的编号]。对于相同的真实世界的牙齿，在两个接收到的数据集中，标识的牙齿的索引是相同的索引。应当指出，在每个单个牙齿的子组中，关键点的编号仍然是任意的。

值得注意的是，3D表面网格数据(以及点云数据或关键点的集合)通常借助于浮点数以正交的x、y和z坐标的格式保存。这开放了高度精确地确定关键点的位置的可能性，因此开放了高度精确的对准结果的可能性，对准结果具有基于例如最小化这种关键点的云之间的计算距离的方法的确定的转换参数，如可以是在采用例如迭代最接近点方法时的情况。

如图10B所示，考虑到哪个关键点属于哪个牙齿(以及其他接收到的3D图像数据集中的匹配的相同的牙齿表示)的附加的信息可以特别用于实现更精确的确定对准转换参数。例如，在未执行初始预对准的情况下，可以使用每个牙齿的平均坐标来确定一个接收到的3D图像数据集与另一个的预对准(实际上是粗略地将匹配的牙齿彼此尽可能接近地定向)。在其他情况下，可能有利的是首先确定转换参数的集合(两个接收到的3D图像数据集之间的每个匹配牙齿一个集合)并基于该集合的平均值来确定最终转换参数。在尚未(适当地足够)确定两个接收到的3D图像数据集之间的重叠体积的情况下，这可能特别有益。

注意，为了确定对准转换参数，需要确定至少三个非共线点。

图11描绘了根据本发明的实施例的用于直接确定用于叠加体素表示的转换参数的系统组件的示意性概况。系统1100可以用于直接预测转换参数，例如，限定一个接收到的3D图像数据集如何与另一个对准的适用的3D旋转、3D平移和3D缩放。训练数据1102和推断数据1116可以由例如体素强度值(例如，在(CB)CT数据的情况下的射电密度)或者二进制值(例如在体素化表面扫描数据的情况下)的3D图像数据组成。强度值可以借助于阈值化被二进制化，例如在(CB)CT数据的情况下，将高于例如500HU的值的所有体素值设置为1，其余体素设置为0。特别是为了生成训练数据的目的，可以在要生成的样本之间随机选择该阈值，例如，在400至800HU的范围内。

该系统可以用于根据在两个接收到的3D图像数据集之间具有不同模态的3D图像数据来预测参数。包括考虑不同结构的信息的不同源可以由同一网络进行训练。例如，在使(CB)CT信息与IOS信息匹配的情况下，通过两个接收到的数据集均可以区分出牙冠的表面，同时例如牙龈预期仅在IOS数据中可区分，例如牙根将仅在CB)CT数据中可区分。

在训练过程中，3D深度神经网络1114的内部参数可以朝向网络提供足够高精确度的结果而优化。这可以通过采用3D图像数据集1102的集合来实现，该集合可以具有变化的模态，但是其确实包括真实世界的结构的至少部分体积重叠。为了训练这样的网络的目的，期望这两个输入集合彼此对准或重叠1104。如果在数据1102中还不是这种情况，则可以例如根据按照关于图6-10中描述的方法的信息来手动地或自动地完成。训练数据叠加的精确性可能影响输出数据的精确性。

有益的是(考虑到精确性、存储带宽要求和潜在的处理速度)，呈现给网络1114用于训练的数据包括相同的真实世界的结构，并且在将被提供给3D深度神经网络1114的体素表示中缩放到相同的真实世界的分辨率。如果在接收到的数据集中还不存在足够的重叠，则可以根据正则坐标系中确定的重叠区域(例如按照关于图3描述的方法)手动或自动完成1106。如果输入的数据集具有不同的分辨率，如从接收到的数据中的元数据知道的或例如通过关于图3所述的方法得出的，则将高分辨率数据重新缩放为低分辨率数据的分辨率1108可能是有益的。

注意，出于从相同的接收到的3D图像数据集的集合中生成大量训练样本的目的，可以以使得不仅最大的重叠的感兴趣体积(VOI)被选择，而且在这样的最大的重叠体积内的较小体积也被选择的方式利用重叠的区域的选择1106，从而在3D中对匹配结构数据的子集有效地“放大”。

为了生成大量的训练样本的目的，可以应用1110随机平移、旋转和/或缩放转换，从而有效地使直到到达处理器的处理的数据中存在的对准不对准1110。为了用作预测的变换的训练目标的目的，这种引入的不对准可以以适用的转换参数的形式被传递到3D深度神经网络1114。预处理的数据集样本或可选地两种样本的体素表示的旋转和/或平移可以通过例如本领域中已知的采用线性(或其他)插值的旋转方法来进行。

从对包括相似结构的3D图像数据集的各种集合的预处理得到的大量样本可以被保存在数据库(或存储器)1112中，因此网络的训练1114可以在多个样本上执行。

在另一个实施例中，可以针对具体条件(例如，特定图像模态的匹配，包括真实世界的结构，和/或体素表示的特定尺寸缩放)训练具有类似架构的单独的3D深度神经网络。对于具体情况，这可能产生可能更高的精确性的结果，同时仍遵循硬件要求，例如可用的系统存储器、处理速度等。

在1114被充分训练的情况下，可以呈现“新数据”1116用于预测或推断。考虑到作为可能不同的图像模态的体素表示等，该新数据可以与上述类型相同。输入的数据集中的牙科结构的正则姿态可以由第一3D深度神经网络1118确定，然后例如通过参考图3所描述的方法选择表示在正则坐标系中重叠的VOI的数据子集1120。如果输入的数据集具有不同的分辨率，如可能从接收到的数据中的元数据知道，或者例如通过关于图3所述的方法得出的，则可以执行将高分辨率数据重新缩放为低分辨率数据的分辨率1122。这导致两个数据集均被预处理以由3D深度学习网络接收1114。请注意，与在此描述的方法相比，重叠VOI的预对准和选择预计较不精确，并且在这一方面，该方法可能被认为是对例如关于图3描述的方法的更高精确度的改善。

随后，训练后的3D深度神经网络可以处理预处理的数据1114，并输出用于叠加样本1和样本2的转换参数1126作为预测。这样的参数的集合可以例如包括6个值的向量，前3个值对于要被转换的数据样本(例如，样本2)编码要沿着接收到的坐标系的三个正交轴按顺序执行的适用的旋转，后三个值是适用的平移，其是正值和/或负值，以便将例如样本2对准或叠加到样本1。

在另一个实施例中，这些参数可以以例如旋转和/或平移矩阵和/或转换矩阵的形式被训练，实现相同的所需对准或叠加结果。

注意，在已经采用1118、1120和/或1122的情况下，针对接收到的样本预测的转换参数可能尚未产生用于原始接收到的3D图像数据集的对准或叠加的参数。在这种情况下，可以考虑到考虑根据这三个预处理器的任何预处理的转换的信息(即，将任何先前的转换与样本的预测的转换“堆叠”在一起)而利用处理器1128，系统1100产生转换参数作为1128的输出，该转换参数可以适用于接收到的3D图像数据集。

注意，可以认为该系统的推断利用在计算上相对不密集，因此相对较快。当采用预对准和选择步骤1118和1120时，该系统的精确度可以显著更高。该系统可以对不同的图像模态具有很高的鲁棒性，并且可以在多种分辨率(接收到的体素表示中的体素大小)上工作，取决于结构之间的重叠量，采用的体素分辨率为0.5-1mm。但是，在重叠不足的情况下，它可能不够精确。组成各种转换参数集合的元素可以采用浮点值的形式。

图12A和图12B示出了根据本发明的实施例的在用于直接推导转换参数的系统组件内采用的接收到的数据和从该系统组件得到的转换的数据的图示。更具体地说，它们是两个接收到的3D图像数据集(1202和1204)的可视化。可视化是3D图像数据集的以其体素表示的形式的计算机渲染。

在这些特定的可视化中，可以看到使用的体素大小在任一正交方向上均为1mm。虽然由系统组件接收到的1202源自CBCT数据，但出于此可视化的目的，它显示为3D体积，该3D体积是对超过500Hounsfield单位的CBCT数据阈值化而得出的。1204是同一位患者的IOS的体素化表示，并且两个接收到的3D图像数据集在近似相同的时刻获取。

从图12B中可以看出，通过应用从系统组件得到的转换参数，借助于3D旋转和3D平移，已经对准或叠加了1204。在此示例的情况下，接收到的3D图像数据集已经具有相同的缩放比例。

图13描绘了根据本发明的实施例的用于直接推导转换参数的系统组件的3D深度神经网络架构的示例。接收到的(预处理的)3D图像数据即与3D深度神经网络的输入的体素空间匹配的两个体素表示1302、1304可以通过网络中的各个层1306-1320并由其处理。网络的第一层可以包括多个3D卷积层1306-1314。

当数据通过卷积层后，内部表示可以被传递到一系列密集连接层1316–1318，这些层推断3D数据之间的旋转和平移距离。

层数及其限定参数的变化(例如，不同的激活函数、核数量、子采样的使用和大小)以及附加功能层(例如，丢弃层和/或批量归一化层)可以在实现中使用，而不会失去3D深度神经网络设计的本质。

最终层或输出层1320可以表示跨三个轴的平移和沿三个轴的旋转的预测，其应该被应用于数据以获得接收到的3D图像数据集的正确叠加。

训练数据可以包括两个体素表示的集合作为输入1302、1304，其平移和旋转是已知的。对于要处理的体素表示的每个数据集，可以将随机的平移和旋转应用于任意一个，并且总的平移和旋转差可以用于确定期望的输出1322和实际输出1320之间的损失。该损失在训练期间可以用作调整3D深度神经网络的各层内参数的度量。可以计算这样的损失，以便从3D深度学习网络得出精确度最佳的预测。在训练期间可以使用优化器函数，以助于训练工作的效率。可以对网络进行训练达任意数量的迭代，直到内部参数导致期望精确度的结果为止。在被适当地训练时，例如颌面结构的两个不同的体素表示可以被呈现为输入，并且3D深度神经网络可以用于得出精确地叠加输入的集合所需的平移和旋转的预测1324。

这些层可以使用各种激活函数，例如线性、tanh、ReLU、PreLU、Sigmoid等。3D CNN层的过滤器的数量、过滤器大小和子采样参数等可以变化。它们以及密集连接层的参数初始化方法可以变化。

图14描绘了根据本发明的实施例的用于选择/确定要应用的转换参数的系统逻辑的流程图。注意，这是根据如上所述的本发明的各个实施例的系统逻辑的示例性设置。出于流程图的目的，两个输入的数据集被表述为已被适当体素化。两个输入的数据集可以在步骤1402处被接收，此时，可以确定到正则姿态的转换参数的第一集合。在示例性实施例中，该步骤对于为了对准或叠加的目的而要应用的转换参数的较大变化具有鲁棒性。精确度可能较低，并且接收到的图像数据的体素表示的分辨率在任一正交方向上可以近似为1mm。

根据来自1402的信息，可以执行预对准1404和充分重叠的确定1406。注意，在实施例中，该步骤可以执行两次充分重叠的确定，对于要执行的每个可选的后续方法进行一次(分别在1410和1416处开始)。如果根据阈值，重叠量不足，则系统可以选择不执行在1410、1416处开始的任何一种或这两种方法，阈值可以通过实验确定并随后可以以编程方式检验。即，这可以被认为是系统确定由1426产生的转换参数由于这些附加方法之一或两者产生的不可行的结果而不会改善。

在足够的重叠的情况下，直接推导方法可以在步骤1410处开始执行，这预期产生更精确的结果，同时对接收到的3D图像数据集内的不同图像模态具有鲁棒性，特别是在已经执行了预对准1404和VOI选择1408的情况下。注意，先前转换之后的适用信息(可能潜在地来自1404和1408)可以被中继以用于在直接推导方法之后确定转换参数1412。该方法中采用的预处理1410可以预期以0.5-1.0mm的体素分辨率产生体素表示。

仍然可以对结果的可行性进行合理性检查(sanity check)1414。这可以借助于由1402产生的参数与由1414和/或1424产生的参数进行比较来完成。如果偏差程度太大，则系统例如可以选择不将参数中继到1426，或者1426可以将权重0归属于所得到的转换参数。

在确定适用的重叠之后，系统可以采用在步骤1416处开始的基于分割的方法。可以采用上述基于3D深度神经网络的方法，或者采用本领域已知的其他方法(IOS数据可能出现这种情况)对两个接收到的3D图像数据集自动进行分割1416。注意，在后者的情况下，牙冠的这种分割可以对以表面网格数据的形式的接收到的3D图像数据进行。

可以对(分割的)结构数据执行分类1418，并且所得到的信息可以被中继到关键点生成步骤1420。预期在不同的接收到的数据集中包括对相同牙齿的标识的能力将产生对接收到的数据集的重叠量和数据质量中的潜在变化更大的鲁棒性。

选择的(稀疏的、紧密匹配的)关键点的生成云可以在步骤1422处用于确定用于对准或叠加的适用的转换参数。再次注意，潜在地由1404、1408产生的任何先前的转换可以由1422考虑，以确定用于设置转换参数的集合。

可以再次执行针对该方法的合理性检查1424，例如，通过检查相对于1414和/或1402产生的参数的偏差。在差异较大的情况下，系统可以选择不将参数中继到1426。或者，1426可以将权重0分配给所得到的转换参数集。不可行的结果可能是接收到的不精确的数据的结果，例如CBCT数据中存在伪影、来自IOS数据的不正确的表面表示等。

表面网格的点数据以浮点精确度保存，从而可能产生高度精确的结果。该方法可被认为是该系统内最精确的，而同时又是最不鲁棒的。然而，可以认为由于包括确定各个结构的预对准、重叠和分割以及分类，其比本领域的当前方法鲁棒得多。

转换参数可以以多种方式在内部表示，例如，分别描述按顺序的旋转的3个值、到原点的3个平移值、和/或确定适用的缩放比例的3个值的3个向量，所有这些值具有属于正交3D坐标系中的特定轴的正值和/或负值。替代地，可以采用线性代数中已知的矩阵的任何组合，更具体地，可以采用可以在(仿射)转换矩阵中确定的旋转、转换、缩放和/或组合。

考虑精确性、鲁棒性等的先验知识可以用于例如确定由1426接收的任何/所有转换参数的重要性的权重。因此，步骤1426可以以编程方式组合从各种方法接收的参数，以产生用于对准或叠加的最精确的期望的转换参数。

注意，根据来自这种系统的期望结果，转换参数可以是将集合2匹配到集合1、将集合1匹配到集合2、和/或这两个集合在替代的(期望的)坐标系中被叠加的参数。

图15A和图15B描绘了根据本发明的各个实施例的两个示例性的接收到的数据集上的转换结果。更具体地，图15A和图15B示出了两个3D图像数据集1502和1504的计算机渲染。这些3D图像数据集分别来源自CBCT扫描仪和口内扫描仪。根据关于图14所描述的系统设置，系统确定了足够的重叠，并且执行了全部三种用于生成转换参数的方法，并且根据正则姿态方法采用了预对准。

为了该可视化的目的，借助于由分割方法产生的每个牙齿结构生成的表面网格来渲染3D CBCT图像数据。在图15A中，图像数据显示为接收的取向，并且可以看到两个3D图像数据集之间的缩放比例是相同的(例如，真实世界维度中的1mm等于两个接收到的数据集的每个正交轴上的一个单位值)。还可以看到，考虑到旋转和平移，1502和1504在很大程度上未对准。

最精确的转换参数集合被确定为由分割和和分类方法产生的集合，匹配并最小化为标识出的两个分割(和标记的)牙齿(在IOS数据的情况下，为牙冠)生成的关键点之间的距离，因此在该示例的情况下，应用的转换的任何部分都不是其他两种方法的直接结果。但是，在对基于分割和分类的方法进行预处理的同时，采用了来自正则姿态方法的转换参数。

图15B示出了由系统确定的应用到1504的转换参数为IOS数据，该系统已经被配置为确定和应用转换参数，该转换参数将一个接收到的3D图像数据集与另一个对准。请注意，尽管重叠仅仅对于限定牙齿索引41、31、32、33、34、35和36的图像体积存在(如可以根据FDI表示法确定的)，但是基于确定的转换参数来应用的最终的对准或叠加步骤被自动执行达很高的精确性。

例如，对于在表面数据中有重叠的牙齿(参考图1中的132)，如图所示的对准或叠加的数据可以进一步被融合或合并。在可视化的数据、特别是示出了从CBCT数据产生包括精确牙根的完整的牙齿的分割步骤的结果以及与考虑到来自IOS数据的牙冠的更精确信息的组合的情况下，产生融合到CBCT牙根的IOS牙冠的表面的合并将例如在如前所述在种植学或正畸学领域中非常有益。这样的合并方法在本领域中是已知的，并且可以从如所述的系统产生的精确对准中大大受益。

如上所述的方法可以为可用的叠加提供最精确的结果，同时对于考虑到输入数据的条件的极大可变性是鲁棒的。这种可变性考虑了接收到的3D图像数据集之间变化的但可能很大幅度的“未对准”、不同的图像模态、针对潜在的低数据质量(例如，误解释的表面、CBCT数据中的伪影等)的鲁棒性。该系统可以完全自动执行，并且可以及时地递送最精确的对准或叠加结果。应当注意，对于3D深度学习网络的任何实现方式，随着更多(变化的)训练数据的训练/利用的时段更长，预期结果和鲁棒性提高。

尽管图中的示例是参考3D牙科结构进行描述的，但很明显，本申请中的实施例通常可用于自动确定(因此，无需任何人工干预)不同模态的3D数据集中3D对象的正则姿态。此外，本申请中的实施例可以用于第一3D对象与第二3D对象的自动叠加，其中，第一3D对象和第二3D对象可以由不同模态的3D数据集表示。

图16是示出如本公开中描述的可以使用的示例性数据处理系统的框图。数据处理系统1600可以包括通过系统总线1606耦接到存储器元件1604的至少一个处理器1602。这样，数据处理系统可以将程序代码存储在存储器元件1604内。此外，处理器1602可以执行经由系统总线1606从存储器元件1604访问的程序代码。在一方面，数据处理系统可以被实现为适合于存储和/或执行程序代码的计算机。然而，应当理解，数据处理系统1600可以以能够执行本说明书内描述的功能的包括处理器和存储器的任何系统的形式来实现。

存储器元件1604可以包括一个或多个物理存储器装置，诸如例如本地存储器1608和一个或更多个大容量存储装置1610。本地存储器可以是指随机存取存储器或在程序代码的实际执行期间通常使用的其他非持久性存储器装置。大容量存储装置可以被实现为硬盘驱动器或其他持久性数据存储装置。处理系统1600还可以包括一个或更多个高速缓冲存储器(未示出)，其提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储装置1610中取回程序代码的次数。

描绘为输入装置1612和输出装置1614的输入/输出(I/O)装置可以可选地耦接到数据处理系统。输入装置的示例可以包括但不限于例如键盘、诸如鼠标的定点装置等。输出装置的示例可以包括但不限于例如监视器或显示器、扬声器等。输入装置和/或输出装置可以直接或通过中间I/O控制器耦接到数据处理系统。网络适配器1616也可以耦接到数据处理系统，以使其能够通过中间专用或公共网络耦接到其他系统、计算机系统、远程网络装置和/或远程存储装置。网络适配器可以包括：数据接收器，用于接收由所述系统、装置和/或网络传输到所述数据的数据；以及数据发送器，用于将数据传输到所述系统、装置和/或网络。调制解调器、电缆调制解调器和以太网卡是可以与数据处理系统1650一起使用的不同类型的网络适配器的示例。

如图16所示，存储器元件1604可以存储应用程序1618。应当理解，数据处理系统1600还可以执行可以促进应用程序的执行的操作系统(未示出)。以可执行程序代码的形式实现的应用程序可以由数据处理系统1600执行，例如由处理器1602执行。响应于执行应用程序，数据处理系统可以被配置为执行本文将进一步详细描述的一个或更多个操作。

在一方面，例如，数据处理系统1600可以表示客户端数据处理系统。在这种情况下，应用程序1618可以表示客户端应用程序，所述客户端应用程序在被执行时配置数据处理系统1600以执行本文中参照“客户端”描述的各种功能。客户端的示例可以包括但不限于个人计算机、便携式计算机、移动电话等。

本文所使用的术语仅出于描述特定实施例的目的，而不意图限制本发明。如本文所使用的，单数形式“一”、“一个”和“该”也意图包括复数形式，除非上下文另外明确指出。将进一步理解的是，当在本说明书中使用术语“包括”和/或“包含”时，指明存在所述特征、整体、步骤、操作、元件和/或组件，但并不排除存在或添加一个或更多个其他特征、整体、步骤、操作、元件、组件和/或其组。

以下权利要求中的所有部件或步骤加上功能元件的对应结构、材料、作用和等同物旨在包括用于与具体要求保护的其他要求保护的元件组合地执行功能的任何结构、材料或作用。已经出于说明和描述的目的给出了本发明的描述，但并不意图是穷举的或将本发明限制为所公开的形式。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员而言将是明显的。选择并描述实施例是为了最好地解释本发明的原理和实际应用，并使本领域的其他普通技术人员能够理解本发明的各种实施例以及适合于预期的特定用途的各种修改。

Claims

1.一种用于自动确定由3D数据集的数据点表示的诸如3D牙科结构的3D对象的正则姿态的计算机实现的方法，所述方法包括：

计算机的处理器将与第一坐标系相关联的3D数据集的数据点的一个或多个块提供给第一3D深度神经网络的输入，所述第一3D神经网络被训练为生成与正则坐标系相关联的正则姿态信息，所述正则坐标系是相对于所述3D对象的部分的位置而限定的；

所述处理器从所述第一3D深度神经网络的输出接收正则姿态信息，所述正则姿态信息包括对于所述一个或多个块的每个数据点的数据点在所述正则坐标系中的位置的预测，所述数据点的位置由正则坐标限定；

所述处理器使用所述正则坐标来确定相对于所述第一3D坐标系的轴和原点的所述正则坐标系的轴的取向和缩放比例以及所述正则坐标系的原点的位置，并且使用所述取向和所述位置来确定用于将所述第一坐标系的坐标转换为正则坐标的转换参数，所述转换参数优选地为旋转、平移和/或缩放参数；以及

所述处理器确定所述3D对象的正则表示，所述正则表示优选地为正则体素表示或正则3D网格表示，所述确定包括将所述转换参数应用于所述3D数据集的数据点的坐标。

2.根据权利要求1所述的方法，其中，所述正则姿态信息包括一个或多个体素图，所述一个或多个体素图用于将体素表示的体素链接到该体素在所述正则坐标系中的位置的预测，优选地，所述一个或多个体素图包括第一3D体素图、第二3D体素图和第三3D体素图，所述第一3D体素图将体素链接到所述正则坐标系的第一x'坐标的预测，所述第二3D体素图将体素链接到所述正则坐标系的第二y'坐标的预测，所述第三3D体素图将体素链接到所述正则坐标系的第三z'坐标的预测。

3.根据权利要求2所述的方法，其中，确定所述正则坐标系的轴的取向还包括：

对于所述体素表示的体素，确定在所述一个或多个3D体素图中的一个体素图的正则坐标中的局部梯度，所述局部梯度表示由所述第一坐标系限定的空间中的向量，其中，所述向量的取向表示正则轴的取向的预测，并且/或者其中，所述向量的长度限定与所述正则轴相关联的缩放因子。

4.一种用于自动叠加由第一3D数据集表示的诸如3D牙科结构的第一3D对象和由第二3D数据集表示的诸如3D牙科结构的第二3D对象的计算机实现的方法，优选地，第一3D牙科结构和第二3D牙科结构是同一个人的，所述方法包括：

计算机的处理器将与第一坐标系相关联的第一3D对象的第一体素表示的体素的一个或多个第一块以及与第二坐标系相关联的第二3D对象的第二体素表示的体素的一个或多个第二块提供给第一3D深度神经网络的输入，所述第一3D深度神经网络被训练为生成与正则坐标系相关联的正则姿态信息，所述正则坐标系是相对于3D牙科结构的部分的位置而限定的；

所述处理器从3D深度神经网络的输出接收第一正则姿态信息和第二正则姿态信息，所述第一正则姿态信息包括对于所述一个或多个第一块的每个体素的该体素在所述正则坐标系中的第一位置的预测；所述第二正则姿态信息包括对于所述一个或多个第二块的每个体素的该体素在所述正则坐标系中的第二位置的预测，所述第一位置和所述第二位置分别由第一正则坐标和第二正则坐标限定；

所述处理器使用所述第一正则姿态信息来确定所述第一坐标系中的轴的第一取向和比例以及轴的原点的第一位置，并使用所述第二正则姿态信息来确定所述第二坐标系中正则坐标系的轴的第二取向和比例以及轴的原点的第二位置；

所述处理器使用所述第一取向、比例和第一位置来确定用于将所述第一坐标系的坐标转换为所述正则坐标系的坐标的第一转换参数，所述第一转换参数优选地为第一旋转、平移和/或缩放参数；并且使用所述第二取向、比例和第二位置来确定用于将所述第二坐标系的坐标转换为正则坐标的第二转换参数，所述第二转换参数优选地为第二旋转、平移和/或缩放参数；以及

所述处理器确定所述第一3D对象和所述第二3D对象的叠加，所述确定包括使用所述第一转换参数和所述第二转换参数分别形成所述第一3D牙科结构的第一正则表示和所述第二3D牙科结构的第二正则表示。

5.根据权利要求4所述的方法，其中，所述第一3D对象、优选地为第一3D牙科结构的第一正则表示和所述第二3D对象、优选地为第二3D牙科结构的第二正则表示是3D表面网格，所述确定叠加还包括：

将所述第一3D对象的第一正则表示分割成所述第一3D对象的至少一个3D对象元素的至少一个3D表面网格，并将所述第二3D对象的第二正则表示分割成所述第二3D对象的至少一个第二3D对象元素的至少一个3D表面网格，所述第一3D对象的3D对象元素例如是3D牙科元素，所述第二3D对象元素例如是3D牙科元素；

选择第一3D表面网格的至少三个第一非共线关键点和第二3D表面网格的至少三个第二非共线关键点，关键点优选地限定第一表面网格的表面曲率中的局部和/或全局最大值或最小值；以及

基于第一个和第二个的第一非共线关键点以及和第一个和第二个的第二非共线关键点对准第一3D对象元素和第二3D对象元素。

6.根据权利要求4所述的方法，其中，所述第一3D对象的第一正则表示和所述第二3D对象的第二正则表示是体素表示，所述确定叠加还包括：

将所述第一3D对象的第一正则体素表示的至少部分和所述第二3D对象的第二正则体素表示的至少部分提供给第二3D深度神经网络的输入，所述第二3D深度神经网络被训练为确定用于对准所述第一正则体素表示和所述第二正则体素表示的转换参数，所述转换参数优选地为旋转、平移和/或缩放参数；以及

基于所述第二3D深度神经网络的输出提供的转换参数对准第一3D牙科结构的第一正则表示和第二3D牙科结构的第二正则表示。

7.根据权利要求4所述的方法，其中，确定叠加还包括：

所述处理器确定所述第一3D对象的正则表示与所述第二3D对象的正则表示之间的重叠的体积；以及

所述处理器确定第一感兴趣的体积，所述第一感兴趣的体积包括所述重叠的体积中的所述第一正则表示的第一体素；并且所述处理器确定第二感兴趣的体积，所述第二感兴趣的体积包括所述重叠的体积中的所述第二正则表示的第二体素。

8.根据权利要求7所述的方法，还包括：

所述处理器将包含在所述第一感兴趣的体积VOI中的第一体素提供给第三3D深度神经网络的输入，所述第三3D深度神经网络被训练为对体素进行分类和分割；以及

所述处理器从所述第三3D深度神经网络的输出接收所述第一感兴趣的体积中的每个第一体素的激活值和/或所述第二感兴趣的体积中的每个第二体素的激活值，其中，体素的激活值表示所述体素属于预定的3D对象类别的概率，该预定的3D对象类别例如是3D牙科结构的牙齿；以及

所述处理器使用所述激活值分别确定第一VOI中的第一3D牙科元素的第一体素表示和第二VOI中的第二3D牙科元素的第二体素表示；并且可选地，所述处理器使用所述第一3D牙科元素的第一体素表示和所述第二3D牙科元素的第二体素表示来确定所述第一3D牙科元素的第一3D表面网格和所述第二3D牙科元素的第二3D表面网格。

9.根据权利要求8所述的方法，还包括：

所述处理器选择所述第一3D表面网格的至少三个第一非共线关键点和所述第二3D表面网格的至少三个第二非共线关键点，关键点优选地限定第一表面网格的表面曲率中的局部和/或全局最大值或最小值；以及

所述处理器优选地使用迭代最近点算法，基于第一个和第二个的第一非共线关键点以及第一个和第二个的第二非共线关键点对准第一3D牙科元素和第二3D牙科元素。

10.根据权利要求8所述的方法，还包括：

所述处理器将第一3D牙科元素的第一体素表示和第二3D牙科元素的第二体素表示提供给第四3D深度神经网络，所述第四3D深度神经网络被训练为生成对于多个候选结构标签中的每一个候选结构标签的激活值，与候选标签相关联的激活值表示由所述第四3D深度神经网络的输入接收到的体素表示表示由所述候选结构标签指示的结构类型的概率；

所述处理器从所述第四3D深度神经网络的输出接收多个第一激活值和多个第二激活值，选择具有第一多个激活值中的最高激活值的第一结构标签，并选择建议第二多个激活值中的最高激活值的第二结构标签，并将第一结构标签和第二结构标签分别分配给所述第一3D表面网格和所述第二3D表面网格。

11.根据权利要求10所述的方法，还包括：

所述处理器选择所述第一3D表面网格的至少三个第一非共线关键点和所述第二3D表面网格的至少三个第二非共线关键点，关键点优选地限定第一表面网格的表面曲率中的局部和/或全局最大值或最小值；

所述处理器分别基于分配给所述第一3D表面网格的第一结构标签和分配给所述第二3D表面网格的第二结构标签标记第一关键点和第二关键点；以及

所述处理器优选地使用迭代最近点算法分别基于第一关键点和第二关键点以及第一3D表面网格的第一结构标签和第二3D表面网格的第二结构标签对准所述第一3D牙科元素和所述第二3D牙科元素。

12.一种用于训练3D深度神经网络以自动确定由3D数据集表示的3D牙科结构的正则姿态的计算机实现的方法，包括：

接收训练数据和相关联的目标数据，所述训练数据包括3D对象的体素表示，所述目标数据包括对于体素表示的每个体素的正则坐标系的正则坐标值，其中，所述正则坐标系是相对于3D对象的部分的位置而限定的预定坐标系，所述3D对象的部分优选地为3D牙科结构的部分，例如为牙弓；

选择体素的一个或多个块，所述一个或多个块表示预定大小的体素表示的一个或多个子样本，并将随机3D旋转应用于所述一个或多个子样本；

将相同的旋转应用于所述目标数据；

将所述一个或多个块提供给3D深度神经网络的输入，并且所述3D深度神经网络对于所述一个或多个块的每个体素预测正则坐标系的正则坐标；以及

通过最小化损失函数来优化所述3D深度神经网络的网络参数的值，所述损失函数表示所述3D深度神经网络预测的坐标值和与所述目标数据相关联的正则坐标之间的偏差。

13.一种适配为自动确定由3D数据集表示的3D对象的正则姿态的计算机系统，包括：

计算机可读存储介质，包含有计算机可读程序代码，所述程序代码包括至少一个训练后的3D深度神经网络，以及

耦合到所述计算机可读存储介质的至少一个处理器，优选为微处理器，其中，响应于执行所述计算机可读程序代码，所述至少一个处理器被配置为执行可执行的操作，包括：

将与第一坐标系相关联的3D对象的体素表示的体素的一个或多个块提供给第一3D深度神经网络的输入，所述第一3D神经网络被训练为生成与正则坐标系相关联的正则姿态信息，所述正则坐标系是相对于所述3D对象的部分的位置而限定的；

从所述第一3D深度神经网络的输出接收正则姿态信息，所述正则姿态信息包括对于所述一个或多个块的每个体素的该体素在所述正则坐标系中的位置的预测，所述位置由正则坐标限定；

使用所述正则坐标来确定相对于第一3D坐标系的轴和原点的所述正则坐标系的轴的取向和比例以及所述正则坐标系的原点的位置，并且使用所述取向、比例和位置来确定用于将所述第一坐标系的坐标转换为正则坐标的转换参数，所述转换参数优选地为旋转、平移和/或缩放参数；以及

确定所述3D对象的正则表示，所述正则表示优选地为正则体素表示或正则3D网格表示，所述确定包括将所述转换参数应用于体素表示的体素的坐标或用于确定所述体素表示的3D数据集。

14.一种适配为自动叠加由第一3D数据集表示的第一3D对象和由第二3D数据集表示的第二3D对象，所述第一3D对象优选为第一3D牙科结构，所述第二3D对象优选为第二3D牙科结构，所述计算机系统包括：

将与第一坐标系相关联的第一3D牙科结构的第一体素表示的体素的一个或多个第一块以及与第二坐标系相关联的第二3D牙科结构的第二体素表示的体素的一个或多个第二块提供给3D深度神经网络的输入；所述3D深度神经网络被训练为生成与正则坐标系相关联的正则姿态信息，所述正则坐标系是相对于所述3D对象的部分的的位置而限定的；

从3D深度神经网络的输出接收第一正则姿态信息和第二正则姿态信息，所述第一正则姿态信息包括对于所述一个或多个第一块的每个体素的该体素在所述正则坐标系中的第一位置的预测；所述第二正则姿态信息包括针对所述一个或多个第二块的每个体素的该体素在所述正则坐标系中的第二位置的预测，所述第一位置和所述第二位置分别由第一正则坐标和第二正则坐标限定；

使用所述第一正则姿态信息来确定所述第一坐标系中的轴的第一取向和比例以及轴的原点的第一位置，并使用所述第二正则姿态信息来确定所述第二坐标系中正则坐标系的轴的第二取向和比例以及轴的原点的第二位置；

使用所述第一取向和所述第一位置来确定用于将所述第一坐标系的坐标转换为所述正则坐标系的坐标的第一转换参数，所述第一转换参数优选地为第一旋转、平移和/或缩放参数；并且使用所述第二取向和所述第二位置来确定用于将所述第二坐标系的坐标转换为正则坐标的第二转换参数，所述第二转换参数优选地为第二旋转、平移和/或缩放参数；以及

确定所述第一3D对象和所述第二3D对象的叠加，所述确定包括使用所述第一转换参数和所述第二转换参数分别形成所述第一3D对象的第一正则表示和所述第二3D对象的第二正则表示。

15.一种包括软件代码部分的计算机程序产品，所述软件代码部分被配置为当在计算机的存储器中运行时，执行根据权利要求1至11中任一项所述的方法步骤。