CN113272869A

CN113272869A - 医学成像中从定位片进行三维形状重构

Info

Publication number: CN113272869A
Application number: CN201980080459.8A
Authority: CN
Inventors: E·巴拉肖瓦; B·乔治斯库; V·K·辛赫; 王江平
Original assignee: Siemens Healthcare GmbH
Current assignee: Siemens Healthcare GmbH
Priority date: 2018-12-05
Filing date: 2019-05-31
Publication date: 2021-08-17
Also published as: EP3874457B1; EP3874457A1; US20220028129A1; WO2020114632A1

Abstract

从定位片（21）重构3D形状（29）。生成网络是机器训练的。生成网络包括用于输入定位片（21）的定位片编码器（24）和用于从解码器（28）的输出中输出3D形状（29）的解码器（28）。对于训练，包括一个或多个其他编码器（23，26），诸如作为正则化器用于输入掩模（20）和/或输入3D形状（22）的编码器。定位片编码器（24）和解码器（28）与输出到解码器（28）的一个或多个其它编码器（23，26）一起进行训练。对于应用而言，如经训练的定位片编码器（24）和解码器（28），在具有或不具有用于掩模（20）的编码器（23）和不具有用于3D形状（22）的编码器（26）的情况下，被用于根据针对该患者的定位片（21）的输入来估计该患者的3D形状（29）。

Description

医学成像中从定位片进行三维形状重构

相关申请

本专利文件要求保护2018年12月5日提交的临时美国专利申请序列号62/775，440在35 U.S.C. §119(e)下的申请日的权益，该临时美国专利申请特此通过引用并入。

背景技术

本实施例涉及观察真实的器官形状。对内部器官（诸如肝脏）的准确描绘可以允许更准确的健康筛查、早期诊断和针对人体中目标特定位置的程序计划。三维（3D）器官的可视化有助于临床应用，诸如手术计划和手术后评估，以及病理检测和疾病诊断。

肝脏和其他器官可以展现高度异质性的形状变化，使肝脏难以分割。肝脏体积分割是使用统计形状模型、sigmoid-edge建模、图形切割或其他处理来半自动或自动执行的。可以使用基于自动深度学习的方法。然而，这些方法依赖于从计算机断层（CT）扫描可获得的体积信息。现有的描绘工具描绘3D CT体积的每个切片中的2D形状，并将该预测集合组合成3D形状。由于缺少空间上下文，该中间逐切片处理可能给总体形状预测质量引入附加的误差源。获得CT扫描的程序涉及长的医患交互时间、高成本的机器和暴露于一定剂量的辐射下。获得CT扫描中的实际挑战可能妨碍获得准确的3D器官描绘。

定位片（topogram），作为从断层摄影设备（诸如X射线）投影的2D图像，可以是更容易获得、成本更低、需要更少的辐射、并且经常由医疗专业人员使用的。由于作为X射线成像中的投影的结果而导致的视觉模糊和信息丢失，从二维（2D）X射线图像（例如，定位片）描绘3D器官形状是困难的。从X射线提取2D形状特别复杂，因为投影可能导致复杂或模糊的纹理、边界和解剖部分重叠。为了减轻这些挑战，传统方法使用诸如运动模式或强度和背景分析之类的先验知识，以便执行X射线分割。更近的方法聚焦于使用深度神经网络学习分段。例如，使用生成对抗网络（GAN）将X射线图像分解成不重叠的分量，以改进分割质量。应用未成对的图像-图像转换技术，以通过观察CT扫描分割来学习分割X射线图像。这些方法在2D形状描绘和分割任务上实现了结果，但在3D上没有。

在计算机视觉领域中，基于变分自动编码网络（VAE）和生成对抗网络（GAN）的深度生成3D形状模型被训练以生成复杂的形状拓扑。与来自图像空间的映射相组合，这些方法能够从2D观察推断3D形状预测。为了获得更详细和准确的预测，通常使用输入注释（诸如界标或掩模）来指导合成处理。例如，2D界标被并入以用于基于皮肤顶点的人类形状模型与图像观察的对准优化。界标注释可以指导输入图像中观察到的3D形状的合成。界标或轮廓可以被并入以制定附加的客观术语，从而改进3D形状重构和合成问题中的性能。然而，这些基于计算机视觉的系统可能无法很好地处理来自医学扫描和融合——特别是在基于投影的医学成像中——的噪声和复杂性。

发明内容

提供了计算机可读介质上的系统、方法和指令，用于从定位片重构3D形状。生成网络是机器训练的。生成网络包括用于输入定位片的定位片编码器和从解码器的输出中输出3D形状的解码器。对于训练，包括诸如作为正则化器用于输入掩模和/或输入3D形状的一个或多个其他编码器。定位片编码器和解码器与向解码器输出的一个或多个其他编码器一起进行训练。对于应用而言，在具有或不具有用于掩模的编码器和不具有用于3D形状的编码器的情况下，如经训练的定位片编码器和解码器，被用于根据该患者的定位片的输入来估计该患者的3D形状。

在第一方面中，提供了一种用于在医学成像系统中从患者定位片重构3D形状的方法。采集以二维形式表示通过患者的投影的患者定位片。响应于将患者定位片输入到机器学习生成网络，由机器学习生成网络重构患者定位片中表示的对象的3D形状。显示来自3D形状的信息。

利用X射线成像器或其他投影成像器采集定位片。3D形状被重构为对象的外表面，诸如肝脏的表面网格。X射线图像包括诸如器官之类的对象的投影，并且患者的器官被重构。

在一个实施例中，机器学习的生成网络被训练为生成对抗网络，或者被训练为具有基于可变自动编码的编码器和解码器的网络。在一些实施例中，网络具有被配置为接收患者定位片的定位片编码器，并且所述网络已经利用3D形状编码器以及利用定位片编码器进行了训练，所述3D形状编码器接收训练数据中的训练3D表示作为输入，所述定位片编码器接收训练数据中的训练定位片作为输入。在其他实施例中，网络具有被配置为接收患者定位片的定位片编码器，并且所述网络已经利用掩模编码器进行了训练，所述掩模编码器接收训练数据中的掩模作为输入。在又一个实施例中，机器学习的生成网络利用3D形状编码器并且利用掩模编码器来训练，所述3D形状编码器接收训练数据中的3D表示作为输入，所述掩模编码器接收训练数据中的掩模作为输入。对于重构，这些实施例中的任何一个都响应于患者定位片的输入进行重构，所述患者定位片具有或不具有来自患者定位片的对象掩模。

在一种方法中，显示的信息是对象的3D形状的3D呈现。在另一种方法中，显示的信息是从3D形状确定的量，诸如体积。

在第二方面中，提供了一种用于进行机器训练以从医学成像系统中的第一定位片重构解剖结构的3D表示的方法。定义了一种机器学习架构，其具有被配置为接收第二定位片作为输入的第一编码器和被配置为接收掩模或第一3D形状作为输入的第二编码器。该机器学习架构用于响应于第一定位片的输入，来机器学习输出3D表示。由机器学习产生的机器学习模型被存储以用于之后的应用。

在一个实施例中，该架构被定义为解码器，该解码器被配置为接收第一和第二编码器的输出，并响应于接收到第一和第二编码器的输出而输出第二3D形状。在一个示例中，定义了该架构，其中第二编码器被配置为接收掩模，并且第三编码器被配置为接收第一3D形状作为输入。在一种方法中，该架构被定义为基于可变自动编码的生成模型。

在第三方面中，提供了一种用于3D器官估计的医学成像系统。X射线成像器被配置为生成患者的X射线图像。图像处理器被配置为根据对机器学习模型的X射线图像的输入来生成3D器官的估计。机器学习模型被配置为接收从单个方向的视图作为输入，其中X射线图像是从单个方向的视图的X射线图像。显示器被配置为显示来自3D器官估计的信息。

在一个实施例中，使用用于定位片的第一编码器和用于3D形状的第二编码器来训练机器学习模型。在另一个实施例中，使用用于定位片的第一编码器和用于定位片中器官轮廓的第二编码器来训练机器学习模型。在又一个实施例中，使用用于定位片的第一编码器、用于3D形状的第二编码器和用于定位片中器官轮廓的第三编码器来训练机器学习模型。

上述任何一个或多个方面可以单独使用或组合使用。用于一种类型的权利要求的任何方面或方法（例如，方法或系统）可以用在另一种类型的权利要求（例如，方法、系统或计算机可读介质）中。从下面结合随附附图阅读的优选实施例的详细描述中，这些和其他方面、特征和优点将变得显而易见。本发明由以下权利要求限定，并且本部分中的任何内容都不应被视为对这些权利要求的限制。下面结合优选实施例讨论本发明进一步的方面和优点，并且所述方面和优点可以在以后独立地或组合地要求保护。

附图说明

组件和各图不一定按比例绘制，重点替代地放在说明实施例的原理上。此外，在各图中，相同的附图标记贯穿于不同的视图指定对应的部分。

图1是用于机器训练的方法的一个实施例的流程图，该方法用于从医学成像系统中的定位片重构解剖结构的3D表示；

图2和图3图示了用于根据2D定位片进行3D形状估计的机器训练的示例架构；

图4是用于从医学成像系统中的患者定位片重构3D形状的方法的一个实施例的流程图；

图5示出了来自CT扫描的肝脏中的3D形状变化；

图6示出了在训练中使用不同架构的示例定位片的示例3D器官形状重构；

图7示出了根据预测的3D器官形状的示例2D投影；和

图8是用于根据定位片进行3D器官估计的系统的一个实施例的框图。

具体实施方式

从定位片图像重构3D器官形状。例如，使用生成模型预测三维中的肝脏形状。3D器官形状是直接从定位片图像自动预测的，与体积CT扫描相比，定位片图像更容易采集，并且在采集期间对辐射的暴露有限。为了改进预测准确度，可以将2D掩模输入到生成模型。从定位片进行3D器官形状重构的自动或半自动方法可以用于在给定单个定位片或投影图像的情况下准确预测观察到的3D器官的形状。在自动描绘中，仅根据定位片图像输出3D形状。在半自动描绘中，用户勾画近似的二维掩模，其与定位片结合使用以获得更准确的3D形状预测。

在一个实施例中，生成形状模型包括3D形状编码器和解码器以及根据2D观察（仅定位片，或者定位片和掩模）的编码器。3D形状编码器和解码器形成可变自动编码器（VAE）生成模型，以便使用紧凑的低维表示来表示每个形状观察。定位片和可选的掩模编码器将来自图像的部分观察（以及当提供时的掩模）映射到对应形状观察的坐标。整个架构进行了端到端优化，以便同时从定位片图像观察中推断形状，并学习底层的形状空间。这允许从3D监督和从输入2D观察推断形状来同时学习覆盖复杂形状变化的生成形状空间。

在本文使用的示例中，感兴趣的器官是肝脏。器官形状预测方法是通用的，并且可以用于除了人类肝脏之外的器官，诸如肺或肾。预测方法可以用于其他解剖结构，而不是特定的器官。预测方法可以用于插入的或非自然的对象，诸如支架或关节。

图1是用于机器训练的方法的一个实施例的流程图，该方法用于从医学成像系统中的定位片重构解剖结构的3D表示。对模型进行机器训练以根据单个定位片或仅从一个视图方向的图像（例如，来自相同或不同时间的沿同一轴投影的一个或多个定位片，诸如单个定位片图像和根据定位片创建的掩膜）预测器官的3D形状。生成器模型被进行机器训练，以根据2D投影预测3D形状。可替代地，该机器被训练以根据从不同视图方向的定位片预测3D形状，而不需要断层摄影的迭代重构。可以使用用于接收定位片、3D形状和/或掩模的编码器和用于根据编码器提供的特征的值输出3D形状的解码器来训练模型。

该方法按所示（即，从上到下或数字）次序或不同的次序执行。例如，动作11、12和13以任何次序执行。可以提供附加的、不同的或更少的动作。例如，提供了动作11，而没有动作12和13。在另一个示例中，作为动作10的一部分，动作12或13中仅一个被与动作11一起提供。作为又一示例，包括用于采集训练数据和/或机器学习的生成器模型的应用的动作。该方法由计算机、服务器、工作站或图8的系统执行，该系统可访问用于存储训练数据或架构和/或生成模型的参数值的存储器或数据库。

在动作10中，定义了机器学习架构。程序员对架构进行编程或配置。例如，选择机器学习的类型。设置要学习的模型的节点、层、处理、操作或另外的特征的架构或布置。网络的层或单元的数量、学习的类型和其他特性由程序员或用户控制。在其他实施例中，一个或多个方面（例如，节点的数量、层或单元的数量或学习的类型）由机器在学习期间定义和选择。使用图形编程、菜单选择或其他方法来定义架构。

在一个实施例中，定义生成（例如，图像到图像）网络。可以使用用于从输入空间分布输出空间分布的任何机器训练架构。该架构是神经网络，诸如全连接神经网络或卷积神经网络。该架构（诸如在U-net布置中）包括一个或多个编码器和解码器。可以使用卷积到转置卷积网络。层或单元的一个分段（例如，编码器）应用卷积来增加输入定位片的抽象性或压缩性。最抽象的特征值（例如，瓶颈）然后被输出到另一个分段。层或单元的另一分段（例如，解码器）然后应用转置卷积来降低抽象性或压缩性，导致3D形状的输出。

在一个实施例中，该架构被定义为生成对抗网络（GAN）。GAN包括诸如图像到图像或U-net之类的生成器，以及鉴别器。生成器包括编码器（卷积）网络和解码器（转置卷积）网络，在从编码器到解码器的最大压缩或抽象水平的传递特征之间具有连接。可以包括从编码器到解码器在较低压缩水平的跳过连接。对抗网络在训练中使用，以学习将生成器的输出与基准真值进行区分。生成器学习输出更真实的3D形状，而鉴别器在迭代训练中学习更好地进行区分。生成器一旦经过训练，就在测试或应用中在没有鉴别器的情况下被使用。在其他实施例中，可以在没有鉴别器的情况下训练生成器。

生成器是深度架构，其可以包括卷积神经网络（CNN）或深度信念网络（DBN）。可以使用其他深度网络。CNN学习前馈映射函数，而DBN学习数据的生成模型。此外，当DBN是全连接网络（即，对图像的所有区域具有不同的权重）时，CNN对所有本地区域使用共享权重。CNN的训练完全通过反向传播来鉴别。另一方面，DBN采用逐层无监督训练（例如，预先训练），如果有必要，则随后利用反向传播进行鉴别性细化。

网络被定义为多个顺序的特征单元或层。顺序用于指示输出特征值从一层到输入到下一层的一般流程。来自下一层的信息被馈送到下一层，以此类推，直到最终输出。所述层可以仅前向馈送或者可以是双向的，包括对先前层的一些反馈。每一层或单元的节点可以与先前层或后续层或单元的全部节点或仅节点的子集连接。

深度架构被定义为基于具有或不具有预处理的输入图像，在不同的抽象水平上学习特征，而不是预先编程特征并试图将特征与属性相联系。所述特征被学习以重构较低水平的特征（即，在更抽象或压缩水平下的特征）。例如，学习用于重构定位片的特征。对于下一个单元，学习用于重构前一单元的特征的特征，提供更多的抽象。单元的每个节点表示一个特征。提供不同的单元以用于学习不同的特征。

在单元或层中，提供任何数量的节点。例如，提供100个节点。之后或后续单元可以具有更多、更少或相同数量的节点。一般而言，对于卷积，后续的单元具有更多的抽象。对于用于重构的转置卷积，抽象水平逆转。每个单元或层都降低了抽象或压缩的水平。

机器使用任何构造块来学习节点的特征。例如，使用自动编码器（AE）或受限玻尔兹曼机（RBM）方法。AE线性地变换数据，并且然后应用非线性整流，如sigmoid函数。AE的目标函数是输入图像和使用学习的特征重构的图像之间的期望均方差。AE可以通过机器使用随机梯度下降或其他方法来学习导致最佳重构的特征。可以使用变分AE（VAE）。RBM的目标函数是能量函数。与RBM相关联的似然项的精确计算是难以处理的。因此，诸如基于k步Gibb采样的对比散度或其他的近似算法被用于训练RBM以从特征重构图像。可以采用稀疏或去噪技术（例如，稀疏去噪AE（SDAE））。加强隐藏层内的稀疏性（即，一次仅激活隐藏层中的少量单元）也可以使网络正则化。在其他实施例中，至少一个单元是具有ReLU激活的卷积，或者是具有ReLU激活后跟随卷积层的批归一化（BN+LeakyRu+卷积）。可以使用最大池化、上采样、下采样和/或softmax层或单元。不同的单元可以具有相同或不同的类型。

可以使用任何现在已知的或以后开发的架构。可以使用支持向量机、贝叶斯网络、其他神经网络或其他布置。可以使用其他神经网络。

在一个实施例中，生成形状模型被定义为包括根据2D观察的一个或多个编码器。图2和图3示出了用于学习和应用的定义的架构的两个实施例。一个编码器24接收定位片21作为输入。图2和图3示出了接收3D形状22作为输入的另一个3D形状编码器26。图3示出了接收掩模20作为2D输入的另一掩模编码器23。在其他实施例中，掩模编码器23没有与3D形状编码器26一起提供。掩模编码器23被示出为学习（即，图3的全部）和测试管道的一部分，但是在其他实施例中可以仅用在学习中，而不用在测试管道中。在图2和图3这二者中，3D形状编码器26仅用在学习管道中，而不用在测试管道中。图2和图3中的学习管道是所示的所有架构（例如，测试管道和示出在测试管道外部的编码器26）。

3D形状编码器26接收3D形状22——诸如来自CT扫描的基准真值3D形状——作为输入。该3D形状编码器26在训练中用作正则化器，并且不用在应用（例如，测试管道）中，因为对于输入而言，3D形状是未知的。生成模型具有3D形状编码器26和通过从不同的编码器23、24、26接收瓶颈特征值27由所有编码器23、24、26共享的解码器28。3D形状编码器26学习将器官的3D形状映射到它们在潜在空间中的坐标，并且解码器28学习从它们的坐标重构形状。该生成模型接收示例集合

作为输入，其中

是示例形状22，并且

是对应的定位片图像21观察。生成模型G =（Q，P）包括编码组件Q。

在根据先验分布

分布的随机低维空间中将形状s映射到其潜在坐标z，并且

将潜在坐标z映射回到形状空间S。

3D形状编码器26将利用64×64×64体素网格表示的观察映射到200维潜在向量z。可以使用其他大小的体素网格和/或向量。对于变分自动编码器模型，正态分布参数定义为

和

，但也可以使用其他参数值。根据一个示例实施例，3D形状编码器26的架构具有五个卷积层，其具有大小为64、128、256、512、200的输出，每层的核大小为4，并且填充大小为1、1、1、1和0。卷积层由批归一化层和ReLU层分离。可以使用其他大小、层数量和/或层类型。

解码器28架构镜像3D形状编码器26的架构。解码器28可以镜像其他编码器24、23，或者可以具有与其他实施例中编码器23、24、26中的任何一个的镜像不同的布置。解码器28被定义为接收编码器23、24和/或26的输出27，并响应于输出值（例如，输出27）的接收或输入来输出预测的3D形状29。解码器28被定义为转置卷积网络。

定位片或2D图像编码器24接收定位片21作为输入。对于训练，接收训练数据的定位片I。对于应用，接收患者定位片。定位片编码器24学习将二维投影观察映射到对应形状的坐标。给定生成模型G，学习定位片图像编码器24，使得对于每个观察

，图像i被映射到坐标位置

，使得重构形状29，

与基准真值形状22，s尽可能接近。

在一个实施例中，定位片编码器24取得1×256×256的定位片图像，并输出200维潜在形状向量

。定位片编码器24被定义为具有五个卷积层，其具有数量为64、128、256、512、200的输出，核大小为11、5、5、5、8，并且步幅为4、2、2、2、1，它们由批归一化和整流线性单元（ReLU）分离。可以使用其他层数量、输入分辨率、输出、大小、步幅或层类型。

掩模编码器23接收掩模20作为输入。掩模20由定位片图像21形成，因此具有与定位片21相同的视图方向或投影角度。掩模20是作为表示或不表示要针对其预测3D形状29的对象的二进制指定或像素标记。在其他实施例中，掩模20是定位片21中对象的边界或外形（即，轮廓）。可以使用神经网被编码的其他类型的输入（例如，界标）也可以代替掩模或用掩模来应用，以改进预测准确度。

掩模编码器23，如果使用的话，可以或可以不在应用中使用，并且在训练中使用。图2示出了不使用掩模编码器23的示例。图3示出了用于测试和学习这二者的掩模编码器23。掩模编码器23和2D图像编码器24是联合定位片和掩模编码器I₂，其在给定2D掩模20和定位片21时预测器官形状的潜在坐标。当提供掩模信息时，掩模信息有助于生成更准确的预测。对于每个观察

，给定定位片i和掩模

，其中

是正交投影算子，联合定位片和掩模编码器23，24学习输出

，使得

和s尽可能接近。在替代实施例中，在图2的定义架构中使用掩模编码器23，而不是3D形状编码器26。在其他替代实施例中，掩模编码器23用于学习而不是测试。

在一个实施例中，定位片和掩模编码器I ₂被定义为具有定位片编码器24分支、掩模编码器23分支和公共组合器网络25，使得观察被映射到公共潜在坐标

。组合器网络25是卷积层网络，但是也可以具有其他布置。定位片编码器24分支具有与以上讨论的定位片编码器24相同的架构，并将定位片21映射到中间200维特征

。掩模编码器23分支接收1×64×64的二进制掩模图像，并学习使用5个卷积层来映射到200维向量

，所述5个卷积层具有3、3、3、3、3的核大小和步幅4、2、2、2、2、2，它们由批归一化和整流线性单元（ReLU）分离。可以使用其他层数量、大小、步幅和/或层类型。编码器23、24的输出，

和

，然后被联接并通过组合器网络25运行，组合器网络25是用来预测联合200维潜在坐标

的单个全连接层。组合器网络25可以使用其他层类型、大小和/或层数量。

再次参考图1，处理器（例如，图像处理器）利用机器学习架构进行机器学习，以响应于定位片21的输入而输出3D表示29。对于机器训练，采集训练数据。训练数据包括具有定位片22中表示的对象（例如，器官，诸如肝脏）的基准真值形状22的成对定位片21。训练数据的样本还可以包括掩模，诸如针对定位片21的手动或自动生成的掩模20。训练数据形成形状和X射线（二维观察）对的数据库。

对于训练，可以使用各种优化器，诸如Adadelta、SGD、RMSprop或Adam。网络的权重是随机初始化的，但是可以使用另外的初始化。执行端到端训练，但是可以设置一个或多个特征。具有或不具有组合器25的各种编码器23、24、26和解码器28一起或联合训练，而不是顺序训练。将预测的3D形状29与基准真值进行比较的组合或单个损失函数被用于更新架构的各个部分。不使用批归一化、dropout和数据增强，但可以是批归一化、dropout和数据增强（例如，使用批归一化和dropout）。在优化期间，学习不同的区别特征。学习从定位片或定位片和掩模提供3D形状指示的特征。

为了训练图2或图3的架构，训练阶段涉及在端到端过程中与2D观察编码器（定位片编码器24或定位片编码器24、掩模编码器23和组合器25）联合训练生成模型（3D形状编码器26和解码器28）。在测试期间，对于3D形状预测仅2D观察是必要的。

优化器将误差或损失（诸如均方差（MSE）、Huber损失、L1损失或L2损失）最小化。在一个实施例中，生成模型的损失函数由针对变分自动编码器训练的重构损失L _rec和分布损失L _dist 组成。L _rec是二元交叉熵（BCE）误差，其测量基准真值形状

和预测形状

之间的差异。例如，L _rec由以下表示：

其中N = 64³。其他大小或分辨率可以用于N。L _dist 是强制

的潜在分布匹配其先前分布的分布损失

，其中

。图像编码器损失是二元交叉熵（BCE）损失

。组合掩模编码器23和定位片编码器24的损失I ₂是二元交叉熵（BCE）误差

。可以使用诸如由以下给出的附加的掩模损失：

。

该掩模损失确保了输入掩模k和预测形状的投影掩模

（即，

）匹配。编码器中的任何一个可以使用其他损失函数。

对于组合训练，系统的所有组件在端到端训练过程中使用组合目标一起优化，组合目标诸如由以下给出：

，

其中

是应用于每种损失类型的权重，如果训练定位片掩模编码器23、24，则

，并且当训练仅定位片编码器24时，

。

是VAE的重构损失，并且

是2D-3D重构损失。可以在没有形状编码器的情况下训练模型，即，

且

。可以使用其他组合损失函数。

在图1的动作18中，处理器将经训练的模型存储在存储器中。如定义的架构的各种参数值是在训练中确定的。这些值和架构存储在存储器中。该存储的模型可以由相同或不同的处理器使用，以根据输入定位片或输入定位片和掩模来预测3D形状。存储的机器学习模型可以在不同的系统中复制，以用于由不同的系统应用于定位片。例如，不同的工作站、计算机、服务器、医疗扫描仪（例如，X射线成像器）或其他医学成像系统将机器学习模型应用于不同患者的定位片。

图4示出了在医学成像系统中从患者定位片重构3D形状的方法的一个实施例。机器学习模型，诸如按照针对图1讨论来训练的机器学习生成网络，适用于给定的患者。具有或不具有掩模的定位片（诸如单个定位片）被输入到机器学习模型，该机器学习模型输出在定位片中表示的对象的3D形状的预测。

该方法按所示（例如，从上到下或数字）次序执行，但是也可以使用其他次序。可以提供附加的、不同的或更少的动作。例如，不提供动作44。在另一个示例中，包括从定位片手动或自动生成掩模的动作。

图4的方法由医学成像系统实现。医学成像系统可以是计算机、服务器、工作站或医学成像器或扫描仪。例如，X射线成像器实现动作。在另一个示例中，在动作40中，X射线成像器或处理器采集定位片；在动作42中，相同或不同的处理器进行重构；并且在动作44中显示设备或屏幕进行显示。也可以使用其他设备。

在动作40中，采集单个患者定位片。可以采集来自不同时间和/或不同视图方向的多个定位片（例如，X射线源相对于患者的定向）。定位片是X射线图像或表示沿着一个维度到2D图像（例如，N×M，其中N和M是大于一的整数）的投影（例如，积分）的其他图像。

采集是通过扫描患者进行的。例如，X射线成像器生成指向患者的X射线。在X射线源相对侧上的检测器检测X射线，提供检测器的每个像素的X射线强度指示。在其他实施例中，采集来自通过计算机网络的传输或从存储器加载。例如，X射线图像是从图像存档和通信系统（PACS）采集的。

患者的定位片包括诸如肝脏的感兴趣对象的投影。2D中的整个对象在定位片中表示（即，对象向2D的投影）。可替代地，仅表示对象的一部分。定位片可以表示其他对象或设备，诸如其他器官、骨骼或插入的设备。可替代地，处理定位片以移除来自其他对象的信息。

可以从定位片生成掩模。例如，应用分割。机器学习模型分割对象，在定位片中标识表示对象的位置。可以使用诸如基于阈值、梯度或另一种算法的其他分割。在其他实施例中，用户手动输入分割，诸如在定位片中追踪对象的边界。

在动作42中，图像处理器重构患者定位片中表示的对象的3D形状，诸如以3D形式（即，在三维之上的空间范围的表示）重构患者的肝脏或其他器官。3D形状被重构为对象的外表面。估计导致对象的定位片表示的外表面。外表面可以是连续表面、体素表示或网格。可替代地，3D形状被重构为实体（例如，外表面和内部）。

具有或不具有掩模的定位片被输入到机器学习的生成网络中，该机器学习的生成网络输出3D形状。例如，在相同分辨率下的定位片和掩模作为两个通道输入到生成网络。生成网络被针对其进行训练的要使用的任何输入作为输入特征向量被应用，诸如（a）仅单个定位片或（b）仅单个定位片和单个掩模。

一个或多个编码器响应于对所述一个或多个编码器的输入来计算针对瓶颈和其他特征的值。解码器从瓶颈特征或者瓶颈和其他特征生成3D形状。可以使用跳过连接，因此可以从针对跳过连接中的特征的值和针对瓶颈特征的值生成3D形状。一个编码器（例如，定位片编码器）或多个编码器（例如，定位片和掩模编码器）与在应用中未使用的3D形状和/或掩模编码器结合（例如，联合）训练。

响应于该输入，生成网络输出对象的3D形状的合成估计。可以使用形状的任何参数化，诸如体素、网格或连续表面表示。在替代实施例中，3D形状被输出为对象的3D渲染的动画（例如，从不同查看方向渲染的2D视图序列）。

在动作44中，图像处理器生成图像，并且显示器显示该图像。该图像包括来自3D形状的信息。该图像被生成为3D形状的视觉表示。使用体渲染或另外的3D渲染来生成图像。可替代地或附加地，图像包括字母数字文本、图形或表征3D形状的量的另外的指示符，诸如3D形状的体积或表面平滑度或变化的度量。

定位片和/或掩模可以被包括在图像中或者与信息同时显示。也可以显示其他患者信息。

图像可以输出到显示器、患者医学记录和/或报告中。来自3D形状的信息可以用于诊断、预后、治疗计划或其他目的。

在训练和应用的一个实施例中，

、

、

以及

，如果掩模是作为输入提供的，或者

（即，对于仅定位片的方法）。所有模型都使用Adam优化器在250期（epoch）内的学习率为0.0001并且批大小为32的情况下进行训练。训练数据用于估计人类肝脏的3D形状和预测体积的任务。由于肝脏的异质性和扩散性形状，因此自动肝脏分割是非常复杂的问题。在不太复杂的方法中，肝脏的3D形状是根据2D定位片图像和（可选地）2D掩模来估计的。体素网格被用作基础表示，并且使用2D投影或使用步进立方体获得的3D网格来可视化结果。通过评估基线来研究由掩模观察提供的形状上下文的影响，其中从掩模直接预测3D形状。

为了进行实验评估，从若干个不同的医院地点收集2129次腹部CT扫描（例如，覆盖肝脏的腹部的3D体积图像）。使用体积分割方法从CT扫描分割肝脏形状，并且经由2D投影提取定位片和掩模。来自数据集的3D形状的示例渲染在图5中示出。1554次扫描用于训练，并且575次扫描用于测试。

给定包括图像编码器的肝脏形状的学习生成模型——该图像编码器在给定定位片图像（和掩模，如果给定的话）的情况下估计潜在空间向量——输出3D肝脏形状。该3D形状被投影回到定位片图像平面上，以执行二维描绘来测试准确度。由于视觉上的模糊，诸如颜色对比和模糊的边界，从定位片视觉地描绘准确的形状特别困难。使用图2或图3的训练架构，可以从定位片自动预测3D形状。给定二维掩模注释，预测可以被细化或使预测变得更准确。

图6示出了定性评估。在图6中，3D重构结果是可视化的。第一列是输入定位片的可视化，第二列是基准真值3D形状的可视化（3D形状的表面或体积渲染），第三列是仅定位片方法的结果的可视化（即，使用图2的架构进行训练），第四列是定位片+掩模方法结果的可视化（即，使用图3的架构进行训练），并且第五列和第六列是对应两种方法的投影掩模的可视化，其覆盖有基准真值掩模。每行对应不同的示例。

这两种提出的（即，利用图2和图3训练的）方法能够捕获观察到的形状的显著变化，诸如图6的示例1中右叶上的突出圆顶和图6的示例5中左叶的形状。与仅定位片方法相比，定位片+掩模方法能够传达更多的拓扑细节，诸如示例1和示例4中的细长内部尖端、示例2和示例3中的左叶突出以及示例5中的总体拓扑，其中基于掩模的方法校正由仅定位片方法引入的孔洞伪影。总体而言，来自基于掩模方法的预测中的3D表面在视觉上更接近基准真值。

图7示出了3D形状预测直接在输入定位片上的投影。基准真值投影示出在第一行中，仅定位片预测投影示出在第二行中，并且定位片+掩膜投影示出在第三行中。通过预测器官的3D形状，经由投影的输入定位片的准确2D分割可以被生成并显示或者被用于计算量。显示的图像允许对应的推断2D分割的可视化。形状重构网络（仅在定位片和定位片+掩模方法这二者中）学习强调器官形状的特性部分，诸如右叶和内部尖端中的曲线。

在定量评估中，可以使用若干个度量来定量比较3D形状重构。测试图2的机器学习生成模型（在应用中，仅定位片）、图3的机器学习生成模型（在应用中，定位片+掩模）和仅掩模（即，图2，其中使用掩模编码器23而不是定位片编码器24，学习在没有提供定位片图像的情况下直接从掩模重构3D形状）。使用了基于体积的交并比（IoU）度量和Dice系数。使用基于表面的Hausdorff距离度量。表1示出了结果：

。

根据所有度量，但尤其是根据Hausdorff距离，定位片+掩模方法优于仅定位片方法，Hausdorff距离对形状变化非常敏感，诸如不正确的尖端或凸起存在预测的关键情况。

仅掩模的方法可以用来示出所提供的掩模是否提供了太多的上下文，致使3D形状预测的问题是更容易得多的任务。在表1中，比较了该基线和接收定位片作为输入的两种方法的性能。仅掩模的方法无法实现与基于定位片的方法相同的结果质量，从而生成显著更低的均值IoU和Dice误差，以及更大得多的Hausdorff误差。定位片图像包含诸如形状布局的重要信息，其与从掩模提取的上下文互补，并且因此这两个输入都可以用于高质量重构。

主要器官的自动体积测量对于医学分析（例如，诊断、预后或计划）通常是重要的。预测的3D形状可以用于直接测量器官体积。器官体积从定位片给出。表2示出了体积误差的比较。

。

体积误差是对肝脏的体素化3D分割的体积的所提出的方法的差异，该体积是从3DCT的分割中获得的，作为基准真值。给定3D形状预测，预测的体积被测量为生成的形状中的体素的数量。使用扫描配置参数将体素的数量转换为毫升（mL），所述扫描配置参数指示每个体素的体积。使用的体积误差预测是

，其中

和

分别是预测的器官的体积和基准真值器官的体积。

平均而言，利用定位片+掩模方法预测肝脏体积的误差为6%，并且利用仅定位片方法预测肝脏体积的误差为10%。仅基于掩模的方法无法准确预测体积，因为它无法预测正确的3D拓扑。

以上定性和定量比较基于使用机器学习的生成网络。通过在对抗训练中包括鉴别器，使用相同训练数据的相同架构可以被训练为GAN（例如，3D VAE-GAN）。与没有鉴别器的基于VAE的方法相比，该基线中的鉴别器典型地鼓励更一致的预测，从而不鼓励更多样的形状拓扑的生成。从数量上而言，在训练中没有鉴别器的情况下，GAN实现了比基于VAE的两种方法更低质量的结果。表3示出了体积量和3D形状误差的结果差异。

。

3D-GAN方法由于倾向于预测平均形状而不考虑输入，因此遭受基于表面的误差和体积误差。

从定位片重构3D器官形状是医学成像中极具挑战性的问题。在其他挑战中，这是困难的问题，因为除了预测3D器官中被遮挡和不可见部分的拓扑之外，输入的X射线图像还可能包含重构方法需要处置的投影伪影。尽管在该类型的图像中存在视觉模糊性，但是直接从定位片预测3D器官形状是可能的。还可能的是通过以掩模的形式提供补充的二维形状信息来改进预测的质量。通过在训练中使用3D形状基准真值作为输入来定义形状空间，提供了准确的3D形状估计。

图8示出了用于3D器官估计的医学成像系统。医学成像系统包括显示器80、存储器84和图像处理器82。显示器80、图像处理器82和存储器84可以是医学成像器86、计算机、服务器、工作站或用于对来自患者扫描的医学图像进行图像处理的其他医学系统的一部分。没有医学成像器86的工作站或计算机可以用作医学成像系统。

可以提供附加的、不同的或更少的组件。例如，计算机网络被包括用于本地捕获的定位片的远程3D形状生成。作为另一个示例，用户输入设备（例如，键盘、按钮、滑块、拨号盘、轨迹球、鼠标或其他设备）被提供用于来自显示的定位片的用户掩模输入或创建。

医学成像器86是医学诊断扫描系统，其被配置为生成患者的投影（即，定位片）图像。在一个实施例中，医学成像器86是X射线成像器，用于生成患者的X射线图像。X射线源和检测器定位在患者88的至少一部分的相对侧。X射线源生成穿过患者88并照射到检测器上的X射线。X射线成像器从检测器读取在不同位置的X射线强度。在每个位置的读数表示来自患者体内组织的沿着从X射线源到该位置的射线的贡献，提供了折叠第三维的投影。可以使用其他投影成像器。

医学成像器86被配置为将X射线图像生成为表示在投影的二维中的患者体内的体积对象。该配置使用一个或多个参数的设置，诸如X射线源电压、工作台定位和/或移动范围、机架定位和/或移动范围、焦点、视野、准直、检测器阈值、图像处理设置、过滤设置和/或图像生成设置。

图像处理器82是控制处理器、通用处理器、数字信号处理器、3D数据处理器、图形处理单元、专用集成电路、现场可编程门阵列、数字电路、模拟电路、人工智能处理器、它们的组合、或其他现在已知或以后开发的用于处理诸如定位片的医学图像数据的设备。图像处理器82是单个设备、多个设备或设备网络。对于多于一个设备，可以使用并行或顺序的处理划分。构成图像处理器82的不同设备可以执行不同的功能，诸如由一个设备将机器学习模型应用于X射线图像，并且由另一个设备渲染从该应用输出的3D形状的视图。在一个实施例中，图像处理器82是诸如医学成像器86之类的医疗诊断成像系统的控制处理器或其他处理器。图像处理器82根据存储的指令、硬件和/或固件进行操作，以执行本文描述的各种动作。

图像处理器82被配置为训练机器学习架构。基于用户提供的或网络架构和训练数据的其他源，图像处理器82学习编码器、解码器、鉴别器或其他网络部件的特征以训练模型。机器训练的结果是一个或多个机器学习模型，用于具有或不具有掩模参数化的3D形状预测。

可替代地或附加地，图像处理器82被配置为应用一个或多个机器学习模型。机器学习模型作为工作站或本地设备上的独立应用或作为部署在计算机网络（云）架构上的服务来应用。

机器学习模型响应于X射线图像或者X射线图像和掩模的输入，生成对患者的器官或解剖结构的3D形状的估计。例如，将机器学习的生成网络应用于患者88的X射线图像或者X射线图像和掩模。机器学习模型包括用于X射线图像和掩模（如果提供的话）的输入通道和对应的模块（例如，编码器）。当被训练时，模型包括用于3D形状和/或用于正则化的掩模的输入通道和模块（例如，编码器）。然后，在没有训练中使用的一个或多个编码器的情况下，在应用中使用所得到的具有或不具有掩模编码器的X射线图像编码器。

单个X射线图像可以用于预测3D形状。输入单独的X射线图像或者输入X射线图像和从X射线图像导出的掩模图像，以生成器官或其他对象的3D形状的估计。输入是患者88的来自相同方向的所有视图，诸如使用平行的或如从公共源发散的相同投影线。来自单个方向的视图被输入以估计3D形状。在替代实施例中，在没有断层摄影的情况下，来自不同方向的视图被输入以估计3D形状。

基于先前的训练，机器学习模型响应于具有或不具有掩模图像的X射线图像的应用而生成3D形状。图像处理器82可以被配置为从3D形状计算一个或多个量，诸如体积。

图像处理器82被配置为生成图像。从机器学习模型输出的3D形状可以是体渲染的或表面渲染的，以创建图像。可替代地，诸如从3D形状确定的量之类的注释或图形可以是生成的图像（例如，显示具有数量的报告）或者可以添加到X射线图像。在另一个替代方案中，图像处理器82从预测的3D形状投影以创建分割或掩模。投影被显示或用于分割X射线图像，其中分割被显示为图像。

显示器80是CRT、LCD、投影仪、等离子体、打印机、平板设备、智能电话或其他现在已知或以后开发的用于显示生成图像的显示设备。显示器80显示根据来自预测的3D形状的信息——诸如估计的3D器官的信息——生成的医学图像。

X射线图像、掩模、网络定义、特征、机器学习模型、训练数据、输出3D形状、从3D形状导出的信息、图像和/或其他信息存储在诸如存储器84的计算机可读存储器中。存储器84是外部存储设备、RAM、ROM、数据库和/或本地存储器（例如，固态驱动器或硬盘驱动器）。相同或不同的非暂时性计算机可读介质可以用于指令和其他数据。存储器84可以使用数据库管理系统（DBMS）来实现，并且驻留在存储器上，诸如硬盘、RAM或可移动介质。可替代地，存储器84在处理器82（例如，高速缓存）内部。

用于实现本文讨论的训练或应用处理、方法和/或技术的指令被提供在非暂时性计算机可读存储介质或存储器上，所述非暂时性计算机可读存储介质或存储器诸如高速缓存、缓冲器、RAM、可移动介质、硬盘驱动器或其他计算机可读存储介质（例如，存储器84）。计算机可读存储介质包括各种类型的易失性和非易失性存储介质。响应于存储在计算机可读存储介质中或其上的一个或多个指令集，执行在各图中图示或在本文中描述的功能、动作或任务。所述功能、动作或任务独立于特定类型的指令集、存储介质、处理器或处理策略，并且可以由单独或组合操作的软件、硬件、集成电路、固件、微码等来执行。

在一个实施例中，指令存储在可移动介质设备上，以供本地或远程系统读取。在其他实施例中，指令存储在远程位置上，用于通过计算机网络传输。在又其他实施例中，指令存储在给定的计算机、CPU、GPU或系统内。因为随附附图中描绘的一些组成系统组件和方法步骤可以在软件中实现，所以系统组件（或处理步骤）之间的实际连接可以取决于编程本实施例的方式而不同。

本文描述的各种改进可以一起使用或分离地使用。尽管本文已经参照随附附图描述了本发明的说明性实施例，但是应当理解，本发明不限于那些精确的实施例，并且在不脱离本发明的范围或精神的情况下，本领域技术人员可以在其中进行各种其他改变和修改。

Claims

1.一种用于在医学成像系统中从患者定位片（21）重构三维形状的方法，所述方法包括：

采集（40）以二维形式表示通过患者的投影的患者定位片；

重构（42）患者定位片（21）中表示的对象的三维形状，所述重构（42）是通过机器学习的生成网络响应于将患者定位片（21）输入到所述机器学习的生成网络而进行的；和

显示（44）来自三维形状的信息。

2.根据权利要求1所述的方法，其中采集（40）包括利用X射线成像器（86）进行采集（40）。

3.根据权利要求1所述的方法，其中重构（42）包括将三维形状重构（42）为对象的外表面。

4.根据权利要求1所述的方法，其中采集（40）包括采集（40）作为患者定位片（21）的X射线图像，所述X射线图像包括对象的投影，所述对象包括器官，并且其中重构（42）包括重构（42）患者的器官。

5.根据权利要求1所述的方法，其中重构（42）包括通过已经被训练为生成对抗网络的机器学习的生成网络来进行重构（42）。

6.根据权利要求1所述的方法，其中重构（42）包括通过基于变分自动编码的机器学习的生成网络来进行重构（42），所述机器学习的生成网络包括编码器（24）和解码器（28）。

7.根据权利要求1所述的方法，其中重构（42）包括通过机器学习的生成网络来进行重构（42），所述机器学习的生成网络具有被配置为接收患者定位片（21）的定位片编码器（11），并且已经利用三维形状编码器（12）以及利用定位片编码器（11）进行了训练，所述三维形状编码器（12）接收训练数据中的三维表示作为输入，所述定位片编码器（11）接收训练数据中的训练定位片作为输入。

8.根据权利要求1所述的方法，其中重构（42）包括通过机器学习的生成网络来进行重构（42），所述机器学习的生成网络具有被配置为接收患者定位片（21）的定位片编码器（11），并且已经利用掩模编码器（13）和定位片编码器（11）进行了训练，所述掩模编码器（13）接收训练数据中的掩模作为输入，所述定位片编码器（11）接收训练数据中的训练定位片作为输入。

9.根据权利要求8所述的方法，其中重构（42）包括通过机器学习的生成网络来进行重构（42），所述机器学习的生成网络已经利用三维形状编码器（12）进行了训练，所述三维形状编码器（12）接收训练数据中的三维表示作为输入。

10.根据权利要求8所述的方法，其中重构（42）包括响应于患者定位片（21）和来自患者定位片（21）的对象的掩模（20）的输入来进行重构（42）。

11.根据权利要求1所述的方法，其中显示（44）包括显示（44）对象的三维形状的三维渲染。

12.根据权利要求1所述的方法，其中显示（44）包括显示（44）从三维形状确定的量。

13.一种用于机器训练的方法，所述方法用于在医学成像系统中从第一定位片重构解剖结构的三维表示，所述方法包括：

定义（10）机器学习（16）架构，所述机器学习（16）架构具有被配置为接收第二定位片作为输入的第一编码器（11）和被配置为接收掩模（20）或第一三维形状（22）作为输入的第二编码器（12，13）；

利用机器学习（16）架构进行机器学习（16），以响应于第一定位片的输入来输出三维表示（29）；和

存储（18）通过机器学习（16）产生的机器学习模型。

14.根据权利要求13所述的方法，其中定义（10）包括定义（10）解码器（28），所述解码器（28）被配置为接收第一和第二编码器（11，12，13）的输出，并且响应于接收到第一和第二编码器（11，12，13）的输出，输出第二三维形状（29）。

15.根据权利要求13所述的方法，其中定义（10）包括将第二编码器（12）定义（10）为被配置为接收掩模（20），并且进一步定义（10）被配置为接收第一三维形状（22）作为输入的第三编码器（13）。

16.根据权利要求13所述的方法，其中定义（10）包括将机器学习（16）架构定义（10）为基于变分自动编码的生成模型。

17.一种用于三维器官估计的医学成像系统，所述医学成像系统包括：

X射线成像器（86），用于生成患者的X射线图像（21）；

图像处理器（82），被配置为根据到机器学习模型的X射线图像（21）的输入生成对三维器官的估计，所述机器学习模型被配置为接收来自单个方向的视图作为输入，所述X射线图像（21）是来自单个方向的视图；和

显示器（80），被配置为显示来自三维器官的估计的信息。

18.根据权利要求17所述的医学成像系统，其中使用用于定位片的第一编码器（24）和用于三维形状的第二编码器（26）来训练（16）所述机器学习模型。

19.根据权利要求17所述的医学成像系统，其中使用用于定位片的第一编码器（24）和用于定位片中的器官轮廓的第二编码器（23）来训练（16）所述机器学习模型。

20.根据权利要求17所述的医学成像系统，其中使用用于定位片的第一编码器（24）、用于三维形状的第二编码器（26）和用于定位片中器官轮廓的第三编码器（23）来训练（16）所述机器学习模型。