CN109753866A

CN109753866A - 机器学习中具有密集特征金字塔网络架构的医学图像对象检测

Info

Publication number: CN109753866A
Application number: CN201811301375.6A
Authority: CN
Inventors: B.乔治斯库; E.翁洛夫斯基; S.刘; 徐大光; D.科马尼丘; 周少华
Original assignee: Siemens AG
Current assignee: Siemens AG; Siemens Healthcare GmbH
Priority date: 2017-11-03
Filing date: 2018-11-02
Publication date: 2019-05-14
Also published as: US20190139216A1; EP3480786A1

Abstract

本申请涉及机器学习中具有密集特征金字塔网络架构的医学图像对象检测。对于对象检测，深度学习与为诸如淋巴结之类的低对比度对象设计的架构一起被应用。该架构使用密集深度学习或特征和使用不同分辨率的密集深度学习的金字塔形的布置的组合，该密集深度学习或特征采用卷积层之间的前馈连接。

Description

机器学习中具有密集特征金字塔网络架构的医学图像对象检测

背景技术

本实施例涉及诸如淋巴结之类的对象检测以及对象检测的机器学习。

在包括淋巴瘤的所有类型的癌症治疗中，常规检查淋巴结。通常在整个放射或化学疗法中测量大小以监测癌症治疗的有效性。医师使用三维（3D）计算机断层摄影（CT）扫描评估患者的淋巴结大小或特性。这种从3D CT图像手动检测和测量淋巴结是麻烦的并且容易出错。

为了自动检测，深度学习通常用于器官和肝脏分割。对于某些自动医学图像分析任务，计算机辅助检测方法可实现高灵敏度，但是典型地遭受每位患者高假阳性（FP）的影响。为了解决这个问题，可采用两阶段的粗略到精细方法。U-Net是更有效地使用可用的注释样本的神经网络。该架构由捕获上下文的收缩路径以及使得能够从较少的图像进行端到端学习的对称扩展路径组成。这种用于密集体积分割的神经网络从稀疏注释的体积图像中学习。深度网络的成功训练往往需要数千个注释的训练样本，该训练样本可能无法获得。

为了淋巴结的自动检测，已经应用了使用梯度、Haar或卷积网络的过滤。卷积网络使用深度学习。即使采用深度学习，自动检测也具有挑战性，因为淋巴结具有类似于肌肉和血管的衰减系数，并且因此与周围结构的对比度低。然而，自动淋巴结检测是值得要的，所以医师可更快和容易地治疗患者。然而，在先前的自动方法与来自人类预期的手动检测准确度之间存在显著的检测准确度差距。

发明内容

提供用于对象检测的系统、方法和计算机可读介质。深度学习与为低对比度对象（诸如淋巴结）设计的架构一起被应用。该架构使用采用卷积层之间的前馈连接的密集深度学习与使用不同分辨率的密集深度学习的金字塔形的布置的组合。

在第一方面，提供一种用于采用医学成像系统的淋巴结检测的方法。接收患者的医学图像。机器学习的检测器检测医学图像中表示的淋巴结。机器学习的检测器包括密集连接的单元的多个集合的密集特征金字塔神经网络，其中该集合和与下采样依次连接的第一组集合以及与上采样依次连接的第二组集合一起被布置，并且其中第一组的集合与具有相同分辨率的第二组的集合连接。医学成像系统输出淋巴结的检测。

在第二方面，为对象检测提供医学成像系统。医学扫描仪被配置成扫描患者的三维区域。图像处理器被配置成将机器学习的检测器应用于来自扫描的数据。机器学习的检测器具有架构，该架构包括密集连接的卷积块的模块、在模块中的一些之间的上采样层、以及在模块中的一些之间的下采样层。机器学习的检测器被配置成输出如在来自扫描的数据中表示的对象的位置。显示器被配置成基于输出在该位置处显示具有对象的注释的医学图像。

在第三方面，提供一种用于为对象检测训练的方法。定义卷积块的组的神经网络布置。每组中的块具有在该组的块之间的前馈跳跃连接。该布置包括在第一个两组之间的下采样层和在第二个两组之间的上采样层。机器用训练数据训练神经网络布置，该训练数据具有对象的地面实况（truth）分割。存储所训练的神经网络。

可单独或组合使用上述方面中的任何一个或多个。从优选实施例的以下详细描述中，这些和其它方面、特征和优点将变得显而易见，优选实施例将结合附图来阅读。本发明由以下权利要求限定，并且该部分中没有任何内容应当被视为对那些权利要求的限制。该发明的进一步的方面和优点在下面结合优选实施例被讨论，并且以后可被独立或组合地要求保护。

附图说明

组件和附图不一定按比例绘制，而是将重点放在图示实施例的原理上。此外，在附图中，相同的附图标记在整个不同的视图中指定对应的部件。

图1是用于对象检测训练的方法的一个实施例的流程图；

图2图示使用密集连接的卷积块的模块的示例性神经网络架构，该卷积块具有在一些模块之间下采样的编码器和在其它模块之间上采样的解码器；

图3是用于通过应用训练的密集特征金字塔神经网络进行对象检测的方法的一个实施例的流程图；

图4图示了示出高斯斑点和对应的检测中心的示例性图像；

图5示出使用用高斯斑点训练的密集特征金字塔神经网络的预测和实际的淋巴结的阳性和阴性检测；

图6示出使用用完整注释的分割掩模训练的密集特征金字塔神经网络的预测和实际的淋巴结的阳性和阴性检测；以及

图7是用于对象检测的系统的一个实施例的框图。

具体实施方式

由于杂乱、低对比度以及淋巴结的形状和位置的变化，自动淋巴结检测具有挑战性。邻近整个身体的不同类型的组织出现淋巴结。淋巴结通常可与其它结构混淆。

淋巴结检测使用密集特征金字塔网络。训练的卷积神经网络在CT数据中提供自动淋巴结检测。模块中密集连接的块用在编码器-解码器金字塔架构中，允许从较少的图像进行有效的训练。在模块中的一个或多个中使用密集连接的卷积神经网络架构。密集连接的神经网络最近已呈现为用于对象识别任务的新的技术发展水平的架构。使用模块中所有层之间的前馈连接，其中所有先前层的特征图（feature-map）用作向所有随后层中的输入。这允许包含更少参数的实质上更深的神经网络架构，减轻消失梯度问题，加强特征传播，鼓励特征重用，并且大大减少训练中的过度拟合。这导致更好的性能、更快的训练时间和更少的存储器使用。

密集特征金字塔网络很好地处理具有背景变化的低对比度的小对象检测。优于先前的基于深度学习的淋巴结检测，密集特征金字塔网络实现显著的改进。即使仅使用645个患者扫描训练，也实现了具有每6名患者一个假阳性的验证数据上的98.1％的召回（recall）和98.1％的精度。这是优于Shin等人在“Deep convolutional neural networksfor computer-aided detection: Cnn architectures, dataset characteristics andtransfer learning”（IEEE transactions on medical imaging，第35卷，第5期，第1285-1298页，2016年）中的具有每名患者3个假阳性的85％的召回的改进。

可检测患者身体中的其它对象。本文使用淋巴结示例。其它对象包括病变，诸如肝脏肿瘤、肾脏肿瘤、肺结节或乳腺囊肿。机器学习的检测器被训练以检测任何类型的对象。

图1和3示出用于对象检测的方法。用于对象检测的方法可以是学习如何检测对象的方法，或者可以是用于检测对象的方法。图1涉及对象检测器的机器训练。图3涉及机器学习的对象检测器的应用。在这两种情况下，诸如图像处理器、计算机或服务器之类的机器实现一些或所有动作。相同或不同的机器用于训练和应用。图7的系统在一个实施例中实现方法。

用户可选择图像文件以便通过处理器应用对象检测器，或者选择通过处理器从中学习特征和分类器的图像。使用该机器允许处理大量（例如许多像素的图像和/或许多图像）的信息，该信息可能无法由人类有效地处理，可能无法由人类在所需的时间帧中现实地处理，或者甚至可能由于微妙和/或定时的原因而不可能由人类处理。机器可按不同于人类的方式学习以便以不同于人类的方式识别对象。不同于其它自动化方法，使用本文讨论的架构可使得机器更快地操作，使用更少的存储器，和/或在应用和/或训练中提供更好的结果。

以所示的次序提供方法，但是可提供其它次序。对于图1，动作42和44可作为一个动作来执行。

可提供附加的、不同的或更少的动作。例如，不提供图1的动作46。作为另一个示例，不提供图3的动作58。在又一个其它示例中，提供用于捕获图像的动作和/或使用检测的信息的动作。

图1示出用于通过由图像处理器学习进行对象检测的方法。用于训练的深度密集金字塔架构提供对象的准确检测。

在动作40中，获得相同类型的对象（例如淋巴结）的图像。通过数据传送、捕获和/或从存储器加载来获得图像。获得相同类型的对象的任何数量的图片，诸如对象的图像中的一个、两个、数十或数百个。用相同的扫描仪或不同的扫描仪来获得图像。图像中包括如在许多不同患者中出现的对象。在对象与不同背景一起出现的情况下，图像是不同背景中的对象。

使用任何一个或多个扫描仪来捕获图像。例如，使用X射线、计算机断层摄影、荧光透视、血管造影、磁共振、超声、正电子发射断层摄影或单光子发射计算机断层摄影来捕获器官的图像。可获得在相同或不同设置（例如视野）中使用相同或不同成像模态（即，传感器或者传感器的类型）的相同或不同患者的多个图像。医学图像中感兴趣的对象可以是器官（例如淋巴结）、囊肿、肿瘤、钙化或者其它异常或病变。

图像表示体积。获得三维数据集。在替代实施例中，获得表示平面的二维数据集。获得的图像是可用于在显示器上生成图像的数据，诸如医学图像是来自医学成像的扫描数据。获得的图像来自正被处理以生成图像的数据、被格式化以用于显示的数据、或者已被用于显示的数据。

在动作44中，医学图像用于训练。医学图像可像接收的那样被使用，或者可被预处理。在预处理的一个实施例中，归一化接收的图像。由于不同的设置、成像系统、正被扫描的患者和/或获取图像中的其它变化可导致不同的偏移和/或动态范围，因此归一化可导致对象的更统一的表示。可使用任何归一化，诸如将最大值设置成1，其中所有其它值在0和1之间被线性缩放。每个体积扫描或医学图像被个别归一化。

为了提高训练效率，随机采样医学图像（例如患者扫描）中的每一个。不是使用整个体积扫描中的每一个，而是随机采样训练数据。例如，使用32×32×32窗口。可使用其它大小。定义窗口的中心位置，并且相对于医学图像随机放置所述中心。替代地，可使用相对于待检测的对象的放置。为对象或患者扫描的每个实例重复N（例如N=200）次放置。结果是每个对象和/或每个患者扫描N组32×32×32医学图像样本。这些32×32×32样本具有随机翻译，并且可包含或可不包含淋巴结。

训练数据包括对象的地面实况指示。地面实况指示是对象的分割，诸如标记、迹线、边界或淋巴结的其它分割。诸如体积CT患者身体扫描之类的医学图像被医师注释。这些体积CT扫描在（x，y，z）轴上具有1.5毫米的分辨率。

在一个实施例中，指定对象的注释是高斯斑点。可使用除高斯之外的其它分布。斑点一般标记淋巴结的位置。斑点以每个淋巴结的质心为中心，在0和1之间缩放，其中在每个斑点的中心找到最大值。斑点是对象的预期大小，诸如大于淋巴结的平均最长维度达25％、50％或其它相对大小。替代地，将斑点的半径设置成与对象的平均半径相同或者小于对象的平均半径。在替代实施例中，将每个斑点的大小调整成在其上放置斑点的对象。可扭曲或成形斑点以一般地匹配，而无需3D边界的完整分割或标识。

体积数据在生物医学成像中是充足的。基于深度学习的方法往往需要用于训练的金字塔注释的数据。由于在计算机屏幕上仅示出2D切片，因此获得该数据的高质量的注释是困难的。由于相邻切片示出类似的信息，因此以逐个切片的方式注释大体积是不可靠、单调且低效的。3D体积的完整注释（即，跟踪对象边界）不是创建将很好地概括的大而丰富的训练数据集的有效方式。用以目标为中心的高斯斑点代替完整分割的注释。斑点充当针对每个淋巴结的热图。该解决方案比针对每个淋巴结仅仅用单个点注释更具吸引力，因为检测每个目标的确切质心不如识别区域或大小重要。此外，斑点方法利用更多空间上下文并简化训练过程。在替代实施例中，单点注释或完整分割（即，跟踪）用于指定训练数据中的地面实况。

在动作42中，定义神经网络（例如深度学习）布置。定义是通过学习的配置或编程。层或单元的数量、学习类型以及网络的其它特性由程序员或用户控制。在其它实施例中，一个或多个方面（例如节点的数量、层或单元的数量、或者学习的类型）由机器在学习期间定义和选择。

深度架构包括卷积神经网络（CNN）或深度置信网（DBN），但是可使用其它深度网络。CNN学习前馈映射函数，而DBN学习数据的生成模型。另外，CNN针对所有本地区域使用共享的权重，而DBN是完整连接的网络（即，针对图像的所有区域具有不同的权重）。CNN的训练完全通过反向传播来区分。另一方面，如果有必要，DBN采用逐层（layer-wise）无监督训练（例如预训练），该训练之后接着是用反向传播的区分细化。在一个实施方案中，使用CNN。

神经网络被定义为多个顺序特征单元。顺序用于指示从一个单元到下一个单元的输入的输出特征值的一般流程。来自下一层或单元的信息被馈送到下一层或单元，依此类推，直到最终输出。单元可仅向前馈送或者可以是双向的，包括对先前单元的某个反馈。每个单元的节点可与先前或随后单元的节点的全部或仅子组连接。

不是预编程特征并试图将特征与属性相关，而是定义深度架构以学习不同抽象级别处的特征。学习所述特征以重构较低级别的特征。例如，学习用于重构图像的特征。对于下一个单元，学习用于重构先前单元的特征的特征，提供更多抽象。单元的每个节点表示特征。提供用于学习不同特征的不同单元。

在单元内，提供任何数量的节点。例如，提供100个节点。可使用任何数量的节点。可为不同单元提供不同数量的节点。以后或随后单元可具有更多、更少或相同数量的节点。一般地，随后单元具有更多抽象。例如，第一单元提供来自图像的特征，诸如一个节点或特征是在图像中找到的线。下一个单元组合线，使得节点中的一个是角。下一个单元可组合来自先前单元的特征（例如角以及线的长度），使得节点提供形状或构建指示。在图2的示例中，每个框或单元22、24、26一般表示多个节点。

节点的特征由机器使用任何构建块来学习。例如，使用自动编码器（AE）或受约束的玻尔兹曼机器（RBM）方法。AE线性地转换数据，并且然后应用非线性整流，像S形函数一样。AE的目标函数是使用学习的特征在输入图像与重构的图像之间的预期均方误差。可使用随机梯度下降或其它方法来训练AE，以由机器学习导致最佳重构的特征。

RBM的目标函数是能量函数。与RBM相关的似然项的确切计算是难以处理的。因此，诸如基于k步吉布斯采样或其它的对比-发散之类的近似算法用于训练RBM以从特征重构图像。

针对高维输入数据，AE或RBM的训练容易过度拟合。采用稀疏性或去噪技术（例如稀疏去噪AE（SDAE））来约束参数的自由度并强制学习数据内的感兴趣结构。将噪声添加到训练图像并要求网络重构无噪声图像可防止过度拟合。在隐藏层内强制稀疏性（即，一次仅激活隐藏层中的少量单元）也可使网络正规化。在其它实施方案中，每个或至少一个单元是用ReLU激活批量归一化，该ReLU激活之后接着是卷积层（BN+LeakyRU+卷积）。不同单元可以是相同或不同的类型。

图2示出网络架构的一个示例性定义。网络架构包括编码器21和解码器23。编码器21和解码器23由各种单元22、24、26形成。网络架构是由编码器-解码器架构形成的密集特征金字塔网络。该架构是全卷积网络，使得可使用任何大小的输入样本。在替代实施例中，该架构不是全卷积的。

架构定义用于深度学习的神经网络。架构是密集神经网络。至少部分的网络包括密集连接的卷积单元22的模块或组28。在图2的示例中，存在七组28的密集连接的单元22。可提供其它数量，诸如仅使用一个。

组28包括任何数量的层或单元22。不同的组28具有相同或不同数量的单元22。每个单元22包括任何数量的节点。组28中的单元22被布置在序列中，其中先前单元22的输出用作随后单元22的输入。对于密集连接，来自每个单元22的输出作为所有随后单元22而不仅是紧接着的随后单元22的输入而被直接馈送。图2示出从组28中的任何给定单元22接收特征值输出的所有随后单元22。序列的每个层或单元22连结（concatenate）来自序列中的层或单元22中所有先前的层或单元的输出特征。除了每个模块28中的序列中的最后一个之外的卷积单元22中的每一个包括在该组的单元22之间的前馈跳过连接。在替代实施例中，连结来自少于所有先前单元22的输出特征。通过使序列中的至少一个中间单元22从序列中的多于一个先前单元22接收输出特征和/或将特征直接输出到序列中的多于一个随后单元22来提供部分密集连接。

在一个实施例中，单元22的组28是DenseNet块。特征图被馈送到具有密集连接的卷积块22的3D DenseNet模块28中。在DenseNet模块28内，每个层22的输入包括来自先前层22的连结的输出特征。因而，仅将少量新特征与来自先前层22的身份映射一起添加到转发信息流。可使用各种类型的层，诸如全局平均池化、softmax和/或sigmoid。

模块28中使用的每个卷积块或单元22包含批量归一化层和之后接着是3×3×3卷积层的ReLu激活。可使用其它节点布置，诸如AE和/或RBM。

该架构也是金字塔形的。例如，卷积块或单元22的模块或组28由下采样单元24或上采样单元26分离，分别形成编码器21和解码器23。神经网络架构包括组28与下采样单元24和上采样单元26的任何组合。下采样单元24和上采样单元26创建卷积块或单元22的金字塔结构。金字塔结构对应于采用不同的分辨率的特征。可使用任何数量的模块28、模块28中的单元22、下采样单元24和/或上采样单元26。以金字塔形的形式、通过在架构的不同阶段或部分使用不同的分辨率来构造各种单元22、24、26。

可使用不同单元和/或模块之间的任何互连。在编码器21内，模块28的序列提供有降低的分辨率。序列的每个模块28输出到序列中的下一个模块28的输入。在模块或组28中的每一个之间提供下采样单元24。每个模块28以与模块28中的全部、一些或另一个不同的分辨率对特征或输入数据进行操作。在图2的示例中，存在以3个不同的分辨率、与3个下采样块24组合的3个DenseNet模块28，作为特征编码器21。该示例的每个模块28以与编码器21的其它模块28不同的分辨率操作，但是可使用以与其它模块28相同的分辨率操作的一些模块28。

下采样块24采用步幅2卷积来减小特征图大小。可使用任何级别的下采样，诸如通过因子或步幅2（即，将空间分辨率降低1/2）的下采样。

初始模块28可按全分辨率对输入图像数据20进行操作。替代地或如图2中所示，下采样单元24在初始模块28之前下采样。可在任何一对模块28或输入医学成像数据20和初始模块之间、或者在编码器21的最终模块28之后提供任何类型的其它中间单元。可在编码器21中使用通过降低分辨率的其它序列。

在解码器23内，模块28的序列提供有增加的分辨率。序列的每个模块28输出到序列中下一个模块28的输入。在模块或组28的每一个之间提供上采样单元26。每个模块28以与模块28中的全部、一些或另一个不同的分辨率对特征或输入数据进行操作。在图2的示例中，存在以3个不同分辨率、与3个上采样块26组合的3个DenseNet模块28，作为特征解码器23。该示例的每个模块28以与解码器23的其它模块28不同的分辨率操作，但是可使用以与其它模块28相同的分辨率操作的一些模块28。

可使用任何级别的上采样，诸如通过因子或步幅2（即，将空间分辨率增加1/2）的上采样。解码器23的初始模块28可按最低分辨率对来自编码器21的输出数据进行操作。解码器23的最终模块28以原始输入医学图像数据20的全分辨率或初始分辨率输出。替代地或如图2中所示，上采样单元26在解码器23的最终模块28之后上采样，提供输出30。可在任何一对模块28或输出热图30和最终模块28之间、或者在解码器23的初始模块28之前提供任何类型的其它中间单元。可在解码器23中使用通过增加分辨率的其它序列。

下采样单元24和上采样单元26是三维卷积层。上采样单元26使用下采样单元24的转置卷积层来实现，诸如3D中用于下采样的BN+LeakyRU+Convolution和3D中用于上采样的BN+LeakyRU+TransposeConvolution。可使用任何大小的内核，诸如3×3×3内核。可使用其它类型的下采样单元24和/或上采样单元26。下采样单元24和上采样单元26将输出特征馈送到模块28中或作为最终输出30。

编码器21将特征或针对特征的值输出到解码器23。在图2的示例中，在编码器21的输出与解码器23的输入之间提供密集连接的单元22的另一个模块28。模块28与编码器21和/或解码器23的模块28相同或不同，诸如是DenseNet模块。给定在编码器21的输出处的下采样单元24和在解码器23的输入处的转置上采样器单元26，介于中间的模块28对采用最低分辨率并具有最大有效感受区域的特征进行操作。在其它实施例中，未提供该桥接模块28（并且直接连接的下采样单元24和上采样单元26），该桥接模块28被包括在编码器21中，或者被包括在解码器23中。可在编码器21与解码器23之间提供其它中间单元。

可提供除了以编码器21与解码器23之间的最低分辨率之外的其它连接。可使用以相同分辨率的架构的不同部分之间的连接。在解码器23的每个分辨率级别，特征分辨率与对应的编码器级别匹配。例如，从每个模块28或除了编码器21的最终模块28之外的任何模块28输出的特征值被输出到编码器21的序列中的下一个模块28以及具有相同的分辨率的解码器23的模块28。以相同分辨率的该连接没有其它单元或包括其它单元，诸如图2的示例中的下采样单元24和上采样单元26对。提供输出特征作为单元22、24、26和/或模块28之间的输入的其它连接可被提供。以一个分辨率的输出可通过另外的下采样单元24和/或上采样单元26连接到以不同分辨率的输入。在替代实施例中，在编码器21与解码器23之间不提供除了以最低分辨率之外的其它连接。

解码器23将特征图上采样到与初始编码器21分辨率级别相同的分辨率。输出特征图30采用与输入医学图像20相同的分辨率。输出3D热图由具有仅一个输出通道的额外上采样块26获得。在替代实施例中，输出特征图30采用与输入医学图像数据20不同的分辨率。

可使用其它密集特征金字塔形的架构。可提供散布有密集模块28的非密集模块28。可使用部分密集模块28。可提供任何数量的模块、单元和/或连接，其中以不同分辨率并且用包括密集连接的单元的至少一个模块发生操作。

在图1的动作44中，机器（例如图像处理器、工作站、计算机或服务器）用具有对象的地面实况分割（ground truth segmentation）的训练数据来训练神经网络布置。使用对象的医学图像和针对对象的地面实况注释来训练密集特征金字塔神经网络。执行机器学习以使用定义的深度架构训练各种单元。学习决定性的或允许输入的重构的特征。学习提供期望结果或对象的检测的特征。

反向投影相对于地面实况的结果以及用于针对特征学习网络的重构的错误，以学习运转最好的特征。在一个实施例中，L2范数损失用于优化密集特征金字塔网络。可使用其它错误功能。优化用Adam算法，但可使用其它优化函数。在优化期间，学习不同的区别特征。学习给定输入医学图像而提供对象的位置的指示的特征。

在一个实施例中，训练数据包括645个患者扫描。对于每次训练的迭代，训练批量大小为256。对于给定的训练的迭代，从645个患者扫描中使用256个32×32×32样本。执行多个迭代。使用Adam算法以用L2范数误差函数进行优化，用0.001的学习率、beta1=0.9以及beta2=0.999优化图2的密集金字塔神经网络。针对1个Nvidia Titan X Pascal GPU上的50个训练时期，优化大约花费24小时。可使用其它数量的扫描和/或批量大小。可使用其它大小的采样或窗口。可使用其它图形处理单元。

训练使用地面实况数据作为对象的完整分割、对象质心的点或者作为斑点。例如，使用近似对象的高斯斑点。训练创建输出高斯斑点的估计位置的机器学习的检测器。替代地，检测器学习以输出点或完整分割。

在动作46中，机器输出训练的神经网络。机器学习的检测器合并针对网络的各种单元和/或模块的深度学习特征。个别特征的集合形成用于区分对象与其它对象的特征或特征组。基于来自图像的对象的重构，特征被提供为抽象和/或分辨率的不同级别中的特征单元的节点。节点定义经训练以提取特征的卷积内核。

一旦经训练，就输出矩阵。矩阵表示训练的架构。机器学习的检测器包括卷积核的定义和/或经训练以检测感兴趣的对象（诸如淋巴结）的神经网络的其它特性。替代地，分离的矩阵用于节点、单元、模块、网络和/或检测器中的任何一个。

机器学习的检测器被输出到网络或存储器。例如，如训练的神经网络被存储在存储器中以用于传送和/或以后应用。

使用学习的特征，机器学习的检测器可检测输入医学图像中的感兴趣的对象。一旦训练检测器，就可应用检测器。定义特征的矩阵用于从输入图像进行提取。机器学习的检测器使用从图像提取的特征来检测对象，诸如以对象的可能位置的空间分布或热图的形式检测、检测完整分割、和/或检测与对象相关联的点。

图3是对象检测的一个实施例的流程图。图3示出用于采用医学成像系统进行对象（例如淋巴结）检测的方法。应用机器学习的检测器以检测对象。

用于训练的相同图像处理器或不同图像处理器应用学习的特征和检测器。例如，将一个或多个矩阵从用于训练的图形处理单元发送到医学扫描仪、医学服务器或医学工作站。医学设备的图像处理器应用机器学习的检测器。例如，使用图7的医学成像系统。

可提供附加的、不同的或更少的动作。例如，提供用于扫描患者和/或配置医学系统的动作。按所示的次序（从上到下或数字）执行动作，但是可使用其它次序。

在动作54中，图像处理器接收对象的一个或多个图像。图像来自患者的扫描，并且可包括或可不包括感兴趣的对象。例如，从CT系统或由CT系统接收表示患者的体积的CT数据（例如躯干或全身扫描）。

接收是通过从存储器加载。替代地，接收是通过从网络接口接收。在其它实施例中，接收是通过扫描患者。

接收的医学图像将用于检测是否在图像中表示对象和/或检测感兴趣的一个或多个对象的一个或多个位置。可预处理接收的医学图像，诸如以与训练医学图像相同的方式归一化。

在动作56中，医学成像系统检测输入图像或图像的一部分是否表示对象。例如，机器学习的检测器确定是否在图像中表示一个或多个淋巴结。使用深度网络的隐藏功能检测对象。例如，将训练的卷积单元（例如BN+LeakyReLU+Convolution单元）应用于适当的输入以提取对应的特征并输出热图。隐藏特征是以不同分辨率学习的特征节点。从图像中提取一个或多个输入图像的特征。可使用架构从那些提取的特征中提取其它更抽象的特征。取决于单元的数量和/或布置，从特征中提取其它特征。

在基于高斯斑点将机器学习的检测器训练为训练数据中的分割的情况下，机器学习的检测器的输出可以是高斯斑点或从高斯斑点导出的信息。类似地，检测可找到对象的点位置或对象的边界。

在一个实施例中，密集特征金字塔神经网络由机器训练配置成以医学图像的分辨率或以另一个分辨率输出热图。例如，神经网络输出噪声热图o，通过位置指示淋巴结存在的似然。指示具有最大概率（即，最热）的位置。这些位置对应于检测的对象。

由机器学习的检测器生成的热图或其它输出可用作检测。替代地，提供进一步的成像处理以细化检测。例如，将机器训练的分类器应用于具有或不具有其它输入特征的热图以细化检测，诸如部分地基于热图而找到完整分割。机器训练的分类器被训练为机器学习的检测器的优化的一部分或作为分离的优化。

在另一个示例中，将进一步的图像处理应用于神经网络的输出，作为机器学习的检测器的一部分。应用阈值。热图表示作为对象的一部分的该位置的每个位置（例如像素、体素或扫描样本点）处的概率的空间分布。通过响应于将医学图像输入到密集特征金字塔神经网络而将阈值应用于该输出，找到最可能表示对象的位置。可使用任何阈值。例如，对o进行阈值处理，使得o≤t=0（其中t=0.5）。t是凭经验选择的。可使用其它后处理，诸如在阈值处理之前对神经网络输出进行低通滤波，应用聚类分析代替阈值处理或者与阈值处理一起，和/或定位最大值的位置或X个最高位置，其中X是整数。

在进一步的实施例中，图像处理器对阈值的应用的结果执行非最大抑制。为了测量训练的神经网络如何良好地检测每个淋巴结，在阈值处理之后的o中的剩余位置聚类减少到质心以用于匹配。应用非最大抑制，使得给定未知数量的聚类而将每个聚类减少到单个点。用于本地最大值和匹配的相邻大小n和m可具有任何值。例如，根据经验将这些距离选为n=5且m=5个像素或体素。可使用骨架化、区域增长、中心确定或其它聚类操作。

在动作58中，医学成像系统输出一个或多个对象的检测，诸如输出任何淋巴结的检测。输出检测。输出结果或检测的信息。例如，输出是否存在匹配。作为另一个示例，输出匹配的概率。可为对象或对象的部分输出任何信息或检测。

在一个实施例中，生成具有针对检测的对象的注释的医学图像的表示。输出到图像。检测的结果指示是否存在匹配或其它检测。注释指示位置，诸如是针对如所检测的对象的点、斑点或边界的标记或图形。在其它实施例中，生成热图的图像。

图4示出作为扫描体积的二维切片或平面的图像的示例性输出。为了解释，图4中提供两个高斯斑点30以示出用于训练的基本实况。斑点30中的圆点（dot）或点是基于机器学习的检测器的应用以及采用n=5和m=5的非最大抑制而检测的淋巴结的中心点。针对给定患者的输出将是具有以颜色或其它指定突出显示的圆点或点的图像。替代地，可突出显示或注释检测的斑点。

淋巴结检测是难题。淋巴结是小的多晶体结构，其类似于血管和其它对象并且出现在各种背景中。可使用训练的密集特征金字塔架构准确地检测具有类似困难的淋巴结或其它对象。

针对淋巴结的检测是准确的。例如，645个患者扫描用于训练，并且177个扫描用于评估。如训练的密集金字塔神经网络架构执行淋巴结检测，具有98.1％的精度、98.1％的召回、99.9％的特异度、以及99.9％的准确度。这是优于Shin等人在“Deep convolutionalneural networks for computer-aided detection: Cnn architectures, datasetcharacteristics and transfer learning”（IEEE transactions on medical imaging，第35卷，第5期，第1285-1298页，2016年）中实现每体积85％的召回和3个假阳性的先前技术发展水平的重大改进。相比之下，用图2的密集金字塔架构训练的神经网络每11个体积产生1个假阳性。

图5示出实际和预测的淋巴结的阳性和阴性检测。机器学习的检测器用高斯斑点训练。因为淋巴结中心在身体扫描中是相对罕见的项目，所以负面示例的数量非常大。真阴性由3D点的体积定义，3D点既不包含真实的也不包含预测的除以非最大抑制搜索体积的淋巴结。

图6示出使用完整注释的分割掩模代替高斯斑点的淋巴结的实际和预测的阳性和阴性检测。使用完整注释的分割掩模的结果产生淋巴结检测，具有精度=91.1％、召回=52.2％、特异性=99.9％以及准确度=99.9％。结果得到更多数量的假阳性。使用斑点比使用掩模或实际分割执行得好。

与先前的淋巴结检测算法相比，基于密集金字塔神经网络的检测实现优异的召回和精度分数。神经网络架构将3D U-Net（例如金字塔）和DenseNet（例如密集连接的单元）的元素连同作为检测注释的高斯斑点组合。可改善与淋巴结或其它对象相关联的疾病的医师辅助诊断和治疗，导致更少的医师复查时间。

图7示出用于对象检测的医学成像系统，诸如CT扫描数据中的淋巴结的检测。医学成像系统是主计算机、控制站、工作站、服务器、医学诊断成像扫描仪、或者用于训练和/或应用机器学习的检测器的其它装置。

医学成像系统包括显示器14、存储器16和图像处理器18。显示器14、图像处理器18和存储器16可以是医学CT扫描仪11、计算机、服务器、或者用于图像处理来自患者的扫描的医学图像的其它系统中的一部分。没有CT扫描仪11的工作站或计算机可用作医学成像系统。可提供附加的、不同的或更少的组件，诸如包括用于远程检测本地捕获的扫描或者用于从远程捕获的扫描本地检测的计算机网络。

医学成像系统用于训练，诸如使用来自存储器16和/或CT扫描仪11的图像作为地面实况。替代地，医学成像系统用于采用深度密集金字塔网络训练的机器学习的检测器的应用。

CT扫描仪11是医学诊断CT成像系统。X射线源和相对的检测器与机架连接。CT扫描仪11被配置成扫描患者10的三维区域。机架相对于患者10旋转或移动x射线源和检测器，捕获从源、通过患者10并且到检测器的x射线投影。计算机断层摄影用于生成表示在患者10内以三维分布的位置的x射线响应的扫描或图像数据。其它医学扫描仪可用于代替CT扫描仪11，诸如超声、磁共振、正电子发射断层摄影、X射线、血管造影、透视或者单光子发射计算机断层摄影。

图像处理器18是控制处理器、通用处理器、数字信号处理器、三维数据处理器、图形处理单元、专用集成电路、现场可编程门阵列、数字电路、模拟电路、其组合、或者现在已知或以后开发的用于处理医学图像数据的其它设备。图像处理器18是单个设备、多个设备、或者网络。对于多于一个设备，可使用并行或顺序的处理划分。构成图像处理器18的不同设备可执行不同的功能，诸如自动解剖结构检测器和用于基于检测的对象生成图像的分离的设备。在一个实施例中，图像处理器18是控制处理器或者医学诊断成像系统的其它处理器，诸如CT扫描仪11。图像处理器12根据存储的指令、硬件和/或固件操作，以执行本文所述的各种动作，诸如控制扫描，从扫描数据检测对象，和/或生成示出检测的对象的输出图像。

图像处理器18被配置成训练深度密集金字塔网络。基于网络架构和训练数据的用户提供的或者其它的来源，图像处理器18学习用于编码器和解码器的特征以训练网络。以不同的分辨率学习所述特征。训练的结果是用于基于深度密集金字塔架构检测对象的机器学习的检测器。训练数据包括作为对象（如地面实况）的高斯斑点、点和/或边界的样本，并且学习的检测器输出对应的斑点、点和/或边界。

替代地或另外地，图像处理器18被配置成基于学习的特征进行检测。图像处理器18被配置成将机器学习的检测器应用于来自患者10的扫描的数据（即，来自CT扫描仪11的图像数据）。机器学习的检测器具有架构，该架构包括密集连接的卷积块的模块、模块中的一些之间的上采样层、以及模块中的一些之间的下采样层。在一个实施例中，机器学习的检测器的架构包括一组模块（该组模块与模块中的每一个之间的下采样层之一依次被布置），并且包括另一个组模块（该组模块与模块中的每一个之间的上采样层之一依次被布置）。可使用任何使用下采样和上采样的金字塔架构。架构中的至少一个模块包括密集连接的卷积层或单元。

图像处理器18通过应用机器学习的检测器而被配置成输出如在来自给定患者的扫描的数据中表示的对象的位置（例如点、斑点或边界）。例如，输出热图。热图的图像示出对象的似然的分布。热图图像可被单独示为或者被覆盖为在来自医学图像数据的解剖结构的图像上的颜色突出显示。输出可以是具有来自热图或概率检测分布的进一步处理的注释的解剖结构图像，诸如通过聚类和/或阈值处理检测的点、边界或斑点。

显示器14是CRT、LCD、投影仪、等离子体、打印机、智能电话、或者其它现在已知或以后开发的用于采用检测的一个或多个对象的突出显示来显示诸如图像之类的输出的显示设备。例如，显示器14用作为如检测的对象的位置的标记（例如圆点或着色）的注释显示一个或多个医学图像。

指令、医学图像、网络定义、特征、机器学习的检测器、矩阵、输出和/或其它信息存储在诸如存储器16之类的非暂时性计算机可读存储器中。存储器16是外部存储设备、RAM、ROM、数据库和/或本地存储器（例如固态驱动器或硬盘驱动器）。相同或不同的非暂时性计算机可读介质可用于指令和其它数据。存储器16可使用数据库管理系统（DBMS）并且驻留在诸如硬盘、RAM或可移动介质之类的存储器上来实现。替代地，存储器16在处理器18内部（例如高速缓存）。

在诸如高速缓存、缓冲器、RAM、可移动介质、硬盘驱动器或其它计算机可读存储介质（例如存储器16）之类的非暂时性计算机可读存储介质或存储器上提供本文讨论的用于在训练或者应用过程、方法和/或技术中实现对象检测的指令。计算机可读存储介质包括各种类型的易失性和非易失性存储介质。响应于存储在计算机可读存储介质中或计算机可读存储介质上的一组或多组指令，执行附图中图示的或本文所述的功能、动作或任务。功能、动作或任务独立于特定类型的指令集、存储介质、处理器或处理策略，并且可由单独或组合操作的软件、硬件、集成电路、固件、微代码等等来执行。

在一个实施例中，指令被存储在可移动介质设备上，以用于由本地或远程系统读取。在其它实施例中，指令被存储在远程位置中，以用于通过计算机网络传送。在又一个其它实施例中，指令被存储在给定的计算机、CPU、GPU或系统内。因为附图中描绘的组成系统组件和方法步骤中的一些可用软件实现，所以系统组件（或处理步骤）之间的实际连接可取决于以其编程本实施例的方式而不同。

可一起使用或分离地使用本文所述的各种改进。虽然本文已经参照附图描述了本发明的说明性实施例，但是应理解：该发明不限于那些精确的实施例，并且本领域技术人员可在其中影响（affect）各种其它改变和修改而不脱离该发明的范围或精神。

Claims

1.一种用于采用医学成像系统的淋巴结检测的方法，该方法包括：

接收患者的医学图像；

由机器学习的检测器检测医学图像中表示的淋巴结，机器学习的检测器包括密集连接的单元的多个集合的密集特征金字塔神经网络，其中该集合和与下采样依次连接的第一组集合以及与上采样依次连接的第二组集合一起被布置，并且其中第一组的集合与具有相同分辨率的第二组的集合连接，以及

从医学成像系统输出淋巴结的检测。

2.根据权利要求1所述的方法，其中医学成像系统包括计算机断层摄影（CT）系统，并且其中接收医学图像包括接收表示患者的体积的CT数据。

3.根据权利要求1所述的方法，其中通过机器学习的检测器检测包括用全卷积网络检测。

4.根据权利要求1所述的方法，其中检测包括：用密集特征金字塔神经网络检测，该密集特征金字塔神经网络包括对医学图像下采样的初始卷积层。

5.根据权利要求1所述的方法，其中检测包括：用包括层的序列的集合中的每一个检测，其中序列的每个层连结来自序列中的层的所有先前层的输出特征。

6.根据权利要求1所述的方法，其中检测包括：用序列中的第一组的集合检测，该序列具有在第一组的每个集合之间的下采样，第一组的每个集合具有与第一组的其它集合不同的分辨率。

7.根据权利要求1所述的方法，其中检测包括：用序列中的第二组的集合检测，该序列具有在第二组的每个集合之间的上采样，第二组的每个集合具有与第二组的其它集合不同的分辨率。

8.根据权利要求1所述的方法，其中检测包括：用包括编码器的第一组以及包括解码器的第二组检测。

9.根据权利要求1所述的方法，其中检测包括：用密集特征金字塔神经网络检测，该密集特征金字塔神经网络被配置成以医学图像的分辨率输出热图。

10.根据权利要求1所述的方法，其中通过机器学习的检测器检测包括：响应于将医学图像输入到密集特征金字塔神经网络而将阈值应用于输出。

11.根据权利要求10所述的方法，其中通过机器学习的检测器检测进一步包括：对阈值的应用的结果执行非最大抑制。

12.根据权利要求1所述的方法，其中输出包括：用针对淋巴结的注释生成医学图像的表示。

13.根据权利要求1所述的方法，其中通过机器学习的检测器检测包括：通过基于作为训练数据中的淋巴结的分割的高斯斑点训练的机器学习的检测器检测，并且其中检测包括针对医学图像输出高斯斑点。

14.一种用于对象检测的医学成像系统，该医学成像系统包括：

医学扫描仪，被配置成扫描患者的三维区域；

图像处理器，被配置成将机器学习的检测器应用于来自扫描的数据，机器学习的检测器具有架构，该架构包括密集连接的卷积块的模块、在模块中的一些之间的上采样层、以及在模块中的一些之间的下采样层；机器学习的检测器被配置成输出如在来自扫描的数据中表示的对象的位置；以及

显示器，被配置成基于输出在该位置处显示具有对象的注释的医学图像。

15.根据权利要求14所述的医学成像系统，其中医学扫描仪包括计算机断层摄影系统，并且其中图像处理器和显示器是计算机断层摄影系统的一部分。

16.根据权利要求14所述的医学成像系统，其中机器学习的检测器的架构包括第一组模块和第二组模块，第一组模块与在第一组的模块中的每一个之间的下采样层之一被依次布置，第二组模块与在第二组的模块中的每一个之间的上采样层之一被依次布置。

17.根据权利要求14所述的医学成像系统，其中机器学习的检测器用作为训练数据中的注释的高斯斑点来训练，并且其中该架构输出热图。

18.一种用于对象检测的训练的方法，该方法包括：

定义卷积块的组的神经网络布置，每组中的块具有在该组的块之间的前馈跳跃连接，该布置包括在第一个两组之间的下采样层和在第二个两组之间的上采样层；

由机器用训练数据训练神经网络布置，该训练数据具有对象的地面实况分割；以及

存储如被训练的神经网络。

19.根据权利要求18所述的方法，其中定义包括：用具有相同分辨率的第一个两组与第二个两组之间的连接定义。

20.根据权利要求18所述的方法，其中训练包括：用包括高斯斑点的地面实况分割训练。