CN114503213A

CN114503213A - 使用卷积长短期记忆从弱注释的卷式医学图像检测疾病

Info

Publication number: CN114503213A
Application number: CN202080067142.3A
Authority: CN
Inventors: N·M·布雷曼; E·D·马尔瓦斯特; D·J·比耶默
Original assignee: International Business Machines Corp
Current assignee: Maredif Usa
Priority date: 2019-10-11
Filing date: 2020-10-08
Publication date: 2022-05-13
Anticipated expiration: 2040-10-08
Also published as: GB2604503B; DE112020004049T5; US20210110532A1; CN114503213B; WO2021070108A1; GB2604503A; JP2022553906A; US11195273B2

Abstract

用于开发疾病检测模型的系统和方法。一种方法包括使用图像研究和从放射学报告挖掘的相关联的疾病标签来训练模型。图像研究包括三维图像卷的多个二维切片的序列，并且模型包括卷积神经网络层(104)和卷积长短期记忆层(108)。训练模型包括：使用卷积神经网络层(104)从多个二维切片中的每一个单独地提取一组特征；使用卷积长短期记忆层(108)顺序地处理由卷积神经网络层(104)针对多个二维切片中的每一个提取的特征；处理来自卷积长短期记忆层(108)的针对多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率；以及基于概率与标签的比较来更新模型。

Description

使用卷积长短期记忆从弱注释的卷式医学图像检测疾病

技术领域

本文所描述的实施例一般涉及深度学习框架，其用于从弱但容易获取的标签(例如，特定疾病的二元(binary)诊断)高效学习以检测图像卷中的疾病。具体来说，本文所述的实施例提供检测模型，其使用卷积长短期记忆(Conv-LSTM)单元来扫描图像卷并记住切片上和切片之间的疾病的特征，其中检测模型是使用针对一组未注释的图像卷的疾病的二元标签来训练的。

背景技术

深度学习已证实对医学成像的增强的自动分析(诸如在计算机辅助诊断(CAD)中)的巨大希望。例如，给定足够大的训练数据池，卷积神经网络(CNN)可以在疾病检测中实现卓越的结果。然而，在开发放射学中的基于深度学习的CAD平台的一个障碍是对大的、注释的医学图像数据集的需要。特别是在三维(3D)成像模态(例如计算机断层摄影术(CT))的情况下，对于放射科医生来说为深度模型的训练提供足够的手动注释通常是极其繁重的。因此，使用注释样本的大数据集来训练疾病检测模型通常实际上不可行，并且对使用呈临床上存在的形式的成像数据——丰富但缺乏注释——的深度学习框架存在相当大的需要。除了能够利用大的未注释数据集来开发疾病检测模型之外，此类方法允许使用新机构的可用成像数据来容易地微调到该机构。考虑到在新机构中成功地部署深度学习系统的已知挑战，这种能力是重要的。

例如，许多肺部疾病检测方法依赖于对图像卷上的感兴趣区域(ROI)的手动划定以用于训练和评估训练模型。为了解决关于经注释的图像集合的有限可用性的以上问题，一些方法使用弱标记的成像数据。具体地，一些系统将包含标记的疾病的3D卷自动子采样成随机选择的二维(2D)补片并且执行监督聚类以将补片分类为疾病阳性状态。其他系统使用多实例学习(MIL)方法来从包含阳性示例的一些部分的成像卷中跨一组示例汇总疾病诊断，诸如肺疾病诊断。

然而，这些方法中的大部分依赖于通过所谓的“手工设计的”定量成像特征的分类以用于表征疾病。这样的方法受到为分类任务选择的预定义成像特征的列表的限制，并且随着训练数据池增加到成千上万，所经历的改进最小化。此外，补片方法仅使用图像卷的一小部分(例如，每次扫描五十个2D补片子样本)，从而限制可用于学习的成像数据。此外，因为补片是随机样本并且疾病可能不存在于整个ROI(诸如肺)中，所以这种方法将不可避免地包括对应于总体上呈疾病阳性状态的健康补片。来自患病患者的此类健康样本可能混淆训练和测试。类似地，MIL方法概括了来自卷的多个样本上的疾病状态，但是缺乏关于那些样本与它们的相互作用之间的空间关系的上下文。

因此，在本领域中需要解决上述问题。

发明内容

从第一方面来看，本发明提供了一种用于开发疾病检测模型的系统，该系统包括：一个或多个电子处理器，被配置为：使用图像研究和从针对图像研究生成的放射学报告挖掘的相关联的疾病标签来训练疾病检测模型，图像研究包括三维图像卷的多个二维切片的序列，疾病检测模型包括卷积神经网络层和卷积长短期记忆层，其中，训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每一个单独地提取一组特征；使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每一个提取的一组特征；处理来自卷积长短期记忆层的针对多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率；将概率与标签进行比较；基于比较更新疾病检测模型；以及在训练疾病检测模型之后，将疾病检测模型应用于新图像研究以生成新图像研究的疾病的概率。

从另一方面来看，本发明提供了一种用于开发疾病检测模型的方法，该方法包括：用一个或多个电子处理器使用图像研究和从针对该图像研究生成的放射学报告中挖掘的相关联的疾病标签来训练该疾病检测模型，图像研究包括三维图像卷的多个二维切片的序列，疾病检测模型包括卷积神经网络层和卷积长短期记忆层，其中，训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每一个单独地提取一组特征；使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每一个提取的该一组特征；处理来自卷积长短期记忆层的针对多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率；将概率与标签进行比较；基于比较更新疾病检测模型；以及在训练疾病检测模型之后，将疾病检测模型应用于新图像研究以生成新图像研究的疾病的概率。

从另一方面来看，本发明提供了一种用于开发疾病检测模型的计算机程序产品，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质可由处理电路读取并且存储用于由该处理电路执行以便执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，该计算机程序包括当程序在计算机上运行时用于执行本发明的步骤的软件代码部分。

从另一方面来看，本发明提供一种存储指令的非瞬态计算机可读介质，指令在由一个或多个电子处理器执行时执行一组功能，该组功能包括：使用图像研究和从针对该图像研究生成的放射学报告中挖掘的相关联的疾病标签来训练该疾病检测模型，该疾病标签包括与该图像研究相关联的患者是否被诊断患有该疾病的二元标签，并且该图像研究包括三维图像卷的多个二维切片的序列，疾病检测模型包括卷积神经网络层和卷积长短期记忆层，其中，训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每一个单独地提取一组特征；使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每一个提取的一组特征；处理来自卷积长短期记忆层的针对多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率；将概率与标签进行比较；基于比较更新疾病检测模型；以及在训练疾病检测模型之后，将疾病检测模型应用于新图像研究以生成新图像研究的疾病的概率。

因此，为了解决现有方法的这些和其他问题，本文描述的实施例提供了用于通过将3D图像视为2D图像的时间序列来使用弱但容易获得的注释的卷式医学图像的解决方案。如在本申请中所证明的，这种溶液可用于在使用低剂量CT图像的肺癌筛选中检测肺气肿。肺气肿，与呼吸短促和癌症风险升高相关，通常表现为肺体积的仅一部分内破裂的气囊。本文所描述的实施例提供了利用卷积长短期记忆(LSTM)和MIL来针对肺气肿“扫描”图像卷的深度学习框架，而无需患病区域的专家注释。对于注释，在此描述的实施例仅使用二元标签(未患病状态或患病状态)，该二元标签可以从容易获得的放射学报告中提取。使用这种方法，可以训练模型来识别肺气肿，同时使假阳性的风险最小化。除了肺气肿之外，在此描述的实施例适用于其他疾病和异常(在此统称为“疾病”)检测问题，其中卷式成像数据的可用性超过放射科医生提供手动划定的地面真值的能力，但是可以容易地从放射学报告或其他来源挖掘标签。

在此描述的方法的优点之一是利用卷式临床成像数据的大量可用性来训练CAD系统而不需要由放射科医生执行的劳动密集型人工注释的能力。在一些实施例中，这些系统可以在后台运行作为对放射科医生诊断的第二次检查(仅在系统检测到潜在错过的诊断时要求输入)并且可以将假阴性减少20％-50％。本文描述的实施例还解决了上面描述的其他系统的缺点。具体地，不同于利用手工设计的定量成像特征的上述CAD方法，本文描述的基于深度学习的方法发现最佳图像模式以区分训练集内的疾病状态，并且因此不受手动定义的成像特征池的约束。因此，此方法的性能由于越来越大的训练数据集继续改善。因此，该方法能够使用容易获得的注释最小化的数据来进行训练，并且从该数据的丰度得到益处。本文描述的方法还避免了上述补片方法中固有的被错误标记的训练补片的问题。特别地，虽然本文描述的实施方式分析包含健康和患病状态两者的样本，但同时评估整个卷确保了被标记为疾病阳性的每个样本将实际上包含患病特征(组织)。与纯MIL方法不同，本文中描述的实施方式将单独的切片视为连续序列，从而考虑切片之间的空间关系并且在扫描成像卷时更新疾病状态的预测。

例如，一些实施例提供包括配备有软件的计算设备的系统，该软件被配置为(1)接受由堆叠的2D放射图像组成的3D成像卷，(2)操纵这些卷以用于高效处理，以及(3)通过神经网络架构分析这些图像卷，该神经网络架构顺序地分析卷的2D切片并输出疾病状态或其他异常存在的预测概率。训练神经网络以使用仅弱标记的大量成像卷(例如，在整个卷内仅具有针对一种或多种疾病状态/异常的二元诊断状态)鉴定疾病，而没有对该卷内该疾病的位置进行任何指导。神经网络包括(a)学习和检测个体2D切片上的图像模式的2D卷积操作，(b)卷积长短期记忆(LSTM)单元，其逐切片扫描3D卷，并在整个3D卷内检测空间模式及其变化，(c)分布式致密操作，其输出对应于每个切片处的卷积LSTM扫描的疾病状态的0至1预测，和可选地，(d)MIL包概率函数，将当其在分析3D卷时的网络预测汇总到针对整个卷的单个预测中。

例如，一个实施例提供了用于开发疾病检测模型的系统。该系统包括一个或多个电子处理器。该一个或多个电子处理器被配置成使用图像研究和从针对图像研究生成的放射学报告挖掘的相关联的疾病标签来训练疾病检测模型。图像研究包括三维图像卷的多个二维切片的序列，并且疾病检测模型包括卷积神经网络层和卷积长短期记忆层。训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每一个单独地提取一组特征，使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每一个提取的一组特征，处理来自卷积长短期记忆层的针对多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率，将概率与标签进行比较，以及基于比较来更新疾病检测模型。一个或多个电子处理器还被配置为在训练疾病检测模型之后，将疾病检测模型应用于新图像研究，以针对新图像研究生成疾病的概率。

另外的实施例提供了用于开发疾病检测模型的方法。该方法包括用一个或多个电子处理器使用图像研究和从针对图像研究生成的放射学报告挖掘的相关联的疾病标签来训练疾病检测模型。该图像研究包括三维图像卷的多个二维切片的序列，并且该疾病检测模型包括卷积神经网络层和卷积长短期记忆层。训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每个单独地提取一组特征，使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每个提取的特征，处理来自卷积长短期记忆层的针对多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率，将概率与标签进行比较，以及基于比较来更新疾病检测模型。该方法还包括，在训练疾病检测模型之后，将疾病检测模型应用于新图像研究，以针对新图像研究生成疾病的概率。

又一实施例提供一种存储指令的非瞬态计算机可读介质，指令在由一个或多个电子处理器执行时执行一组功能。该组功能包括使用图像研究和从为图像研究生成的放射学报告挖掘的相关联的疾病标签来训练疾病检测模型。疾病标签包括与图像研究相关联的患者是否诊断患有疾病的二元标签，并且图像研究包括三维图像卷的多个二维切片的序列。疾病检测模型包括卷积神经网络层和卷积长短期记忆层。训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每一个单独地提取一组特征，使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每一个提取的一组特征，处理来自卷积长短期记忆层的针对多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率，将概率与标签进行比较，以及基于比较来更新疾病检测模型。该组功能进一步包括，在训练疾病检测模型之后，将疾病检测模型应用于新图像研究，以针对新图像研究生成疾病的概率。

进一步的实施方式提供了用于开发疾病检测模型的系统。该系统包括一个或多个电子处理器。该一个或多个电子处理器被配置成使用图像研究和从针对图像研究生成的放射学报告挖掘的相关联的疾病标签来训练疾病检测模型。图像研究包括三维图像卷的多个二维切片的序列，并且模型包括卷积神经网络层和卷积长短期记忆层。训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每一个单独地提取一组特征，使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每一个提取的一组特征，处理来自卷积长短期记忆层的针对多个二维切片中每一个二维切片的输出以生成疾病的概率，将概率与标签进行比较，以及基于比较来更新疾病检测模型。一个或多个电子处理器还被配置为在训练疾病检测模型之后，将疾病检测模型应用于新图像研究，以针对新图像研究生成疾病的概率。

另外的实施例提供一种用于开发疾病检测模型的方法。该方法包括用一个或多个电子处理器使用图像研究和从针对图像研究生成的放射学报告挖掘的相关联的疾病标签来训练疾病检测模型。图像研究包括三维图像卷的多个二维切片的序列，并且疾病检测模型包括卷积神经网络层和卷积长短期记忆层。训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每一个单独地提取一组特征，使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每一个提取的一组特征，处理来自卷积长短期记忆层的针对多个二维切片中每一个二维切片的输出以生成疾病的概率，将概率与标签进行比较，以及基于比较来更新疾病检测模型。该方法还包括，在训练疾病检测模型之后，将疾病检测模型应用于新图像研究，以针对新图像研究生成疾病的概率。

一些实施例还存储有指令的非瞬态计算机可读介质，指令在由一个或多个电子处理器执行时执行一组功能。该组功能包括使用图像研究和从为图像研究生成的放射学报告挖掘的相关联的疾病标签来训练疾病检测模型。疾病标签包括与图像研究相关的患者是否被诊断患有疾病的二元标签，并且图像研究包括三维图像卷的多个二维切片的序列。疾病检测模型包括卷积神经网络层和卷积长短期记忆层。训练疾病检测模型包括：使用卷积神经网络层从多个二维切片中的每一个单独地提取一组特征；使用卷积长短期记忆层顺序地处理由卷积神经网络层针对多个二维切片中的每一个提取的一组特征；处理来自卷积长短期记忆层的针对多个二维切片中每一个二维切片的输出以生成疾病的概率；将概率与标签进行比较；以及基于比较来更新疾病检测模型。该组功能还包括，在训练疾病检测模型之后，将疾病检测模型应用于新图像研究，以针对新图像研究生成疾病的概率。

通过考虑详细说明和附图，实施方式的其他方面将变得显而易见。

附图说明

现在将参考如在以下附图中所展示的优选实施例仅通过示例的方式来描述本发明：

图1示出了用于训练深度学习模型以检测计算机断层摄影(CT)图像上的各种异常的示例注释。

图2示出了用于弱注释卷中的疾病检测的卷积长短期记忆(Conv-LSTM)网络。

图3示出了根据一些实施方式的用于疾病检测的二维(2D)卷积多实例学习(MIL)网络。

图4使用受试者操作特性(ROC)曲线示出图2的Conv-LSTM网络和图3的2D卷积MIL网络在测试集中用于肺气肿检测的性能。

图5示出了图2的Conv-LSTM网络通过向具有可变训练集大小的标准剂量计算机断层摄影术(CT)的转移学习的肺气肿检测性能。

图6示出了手动注释的肺气肿地面真值情况和与图2的Conv-LSTM网络相关联的视觉注意图之间的空间对准。

图7示意性地示出了根据一些实施例的用于实现图2的Conv-LSTM网络的系统。

图8示出根据一些实施例的与MIL组合的Conv-LSTM网络。

具体实施方式

在以下描述和附图中描述并示出了一个或多个实施方式。这些实施方式不限于在本文中提供的具体细节，并且可以各种方式进行修改。此外，可存在本文未描述的其他实施例。此外，本文描述为由一个组件执行的功能可以由多个组件以分布式方式执行。同样地，由多个组件执行的功能可以由单个组件合并和执行。类似地，被描述为执行特定功能的组件也可以执行本文中未描述的附加功能。例如，以特定方式“配置”的设备或结构至少以该方式配置，但也可以未列出的方式配置。此外，在此描述的一些实施例可以包括一个或多个电子处理器，该一个或多个电子处理器被配置成用于通过执行存储在非瞬态计算机可读介质中的指令来执行所描述的功能。类似地，本文所述的实施例可实施为存储可由一个或多个电子处理器执行以执行所描述的功能的指令的非瞬态计算机可读介质。如在本申请中所使用的，“非瞬态计算机可读介质”包括所有计算机可读介质，但不包括瞬态传播信号。因而，非瞬态计算机可读介质可包括例如硬盘、CD-ROM、光存储设备、磁存储设备、ROM(只读存储器)、RAM(随机存取存储器)、寄存器存储器、处理器高速缓存、或其任何组合。

此外，在本文中使用的措辞和术语用于描述的目的，并且不应被视为限制性的。例如，在本文中使用“包括”、“包含”、“包括”、“具有”及其变型意味着包括其后列出的项目及其等同物以及附加项目。术语“连接”和“耦接”被广泛使用并且包括直接和间接连接和耦接。此外，“连接”和“耦接”不限于物理或机械连接或耦接并且可包括电连接或耦接，无论是直接的还是间接的。此外，可以使用有线连接、无线连接或其组合来执行电子通信和通知，并且可以通过不同类型的网络、通信信道和连接直接或通过一个或多个中间设备来发送电子通信和通知。此外，诸如第一和第二、顶部和底部等的关系术语可在本文中仅用于将一个实体或动作与另一个实体或动作区分开，而不必要求或暗示这些实体或动作之间的任何实际这种关系或顺序。

如上所述，放射学中的基于深度学习的诊断需要大量的手动注释的成像数据集。然而，尽管可获得临床数据，但是卷式成像的专家注释过于繁重。特别地，手动地划定图像卷上的边界对于放射科医生来说经常太耗时而不能以训练深度模型所需的量执行。例如，图1示出了用于训练深度学习模型以检测在计算机断层摄影(CT)图像上的各种异常的示例注释。因此，在许多情况下，例如在胸部CT中，扫描可以频繁地执行和容易获得，但是可能不包含超过相关联的放射学报告的内容的任何标签。因此，当训练模型时，这对使用大量临床成像数据提出了实质性的障碍。

同样如上所述，肺气肿是由肺内气囊破裂引起的呼吸道疾病，并且与呼吸短促和癌症风险相关。肺气肿经常经由患者肺的CT图像诊断。然而，，肺气肿在CT图像上的各种呈现和定位(可能仅出现在肺体积的一部分中)对训练深度模型以从未标记的数据检测肺气肿提出了挑战。例如，虽然作为肺CT上的低衰减区域可见，但是当患者接受标准剂量CT扫描以主要评估肺外的状况时，肺气肿可能作为偶然诊断而丢失。

为了解决这些挑战，一些检测系统使用具有手工设计的特征或深度学习的多实例学习(MIL)方法来识别肺气肿和其他肺部疾病。这些MIL方法使用弱标记的监督学习策略以利用具有不精确的全局标签的训练数据。在MIL方法中，分类器被应用于一组样本，其单独的标签是未知的，但是可以被分组到被标记的“包”中。然后基于整个包的标签和预测来执行模型训练和推断。例如，临床上阳性的CT卷可以被认为是阳性包，其中每个2D切片形成样本。任何单个切片上肺气肿的存在是未知的，但是如果患者是疾病阳性的，它必须存在于包中的一个或多个切片上。

虽然MIL在训练模型并且汇总其在多个弱注释的样本上的预测方面是有效的，但是MIL也具有几个缺点。首先，MIL未能考虑包中的样本之间的空间上下文。与全部类似于肺气肿的一系列连续切片相比，在整个卷中分离的阳性样本更可能代表由于噪声引起的假阳性，但是在MIL设置中考虑这种接近的暗示。第二，MIL需要池化操作，其将样本级别的预测汇总为针对包的单个预测。使用初次接受实验的方法(例如，样本预测的平均值或最大值)进行该汇总，其可以是不灵活的并且影响初次接受实验实例的情况，其中，MIL模型检测或错过疾病，而不管底层分类器的强度。

因此，本文描述的实施例提供深度学习框架，用于从弱但容易获得的标记的训练数据中有效学习以检测图像卷中的疾病/异常。具体地，一个实施例包括卷积长短期记忆器实现(LSTM)(Conv-LSTM)。递归神经网络方法(诸如长短期记忆(LSTM))能够解释和汇总相关样本之间的模式，并且Conv-LSTM是使用卷积操作来区分空间模式中的变化的LSTM的变体。例如，Conv-LSTM在检测时空模式方面是出色的。不是将Conv-LSTM应用于时间序列图像数据，本文所述的实施例应用Conv-LSTM来扫描成像卷的一系列连续切片以学习疾病模式，而无需手动注释疾病位置。该方法允许检测切片上和切片之间的疾病，通过多次双向遍历卷来存储这样的检测并输出作为表征总体疾病存在的最终特征集合。因此，本文中描述的实施方式通过考虑切片之间的空间关系以及简要汇总发现而不要求潜在减少的池化方法来改善其他方法。如下文所述，通过所公开的实验数据，Conv-LSTM方法为疾病检测提供有效且通用的解决方案，并且可有效利用弱标记的图像卷用于训练和调谐。

因此，Conv-LSTM实现使用卷积Conv-LSTM来针对疾病“扫描”成像卷，而无需专家注释。这种方法允许检测二维(2D)切片上和之间的疾病模式，而无需潜在减少的包池化操作。具体而言，与2D卷积MIL实现方式一样，该实现方式包括卷积操作以识别各个切片内的模式。然而，该实现方式还包括遍及网络的多个卷积LSTM单元，其将卷的片视为序列。通过先前卷积层单独地从每个切片提取的特征一次一个馈送到以第一方向(例如，从头到脚的前向方向)穿过卷移动的卷积LSTM中，并且随后，在第二相反方向(例如，从脚到头的后向方向)上移动的卷积LSTM中，接着是另一组前向-后向卷积LSTM处理。卷积LSTM具有“记忆”来自先前切片的与疾病相关的图像模式，以及识别切片之间指示疾病的变化的能力。对于序列中的每个项目，卷积LSTM基于图像及其自身内部记忆的模式输出一组特征。对于最后的卷积LSTM单元，对应于所分析的最后切片的一组特征连接到致密层，其基于跨成像卷的多次扫描累积的信息输出疾病(肺气肿)的概率。

例如，图2示出了根据一个实施例的用于弱注释的图像卷中的疾病检测的Conv-LSTM网络100。如图2所示，网络100包括四个单元102。具体地，图2示出了一个单元的双向对(总共两个单元)，其中，网络100包括两个这样的对。每个单元102具有两个2D卷积层104，这两个2D卷积层104分别从3D卷的每个2D切片提取特征。每对2D卷积层104之后是最大池化层106和Conv-LSTM层108。Conv-LSTM层108逐片处理卷。每个2D卷积层104具有3X3的内核大小和校正线性单元(ReLU)激活，随后是批量归一化。然后通过Conv-LSTM层108顺序地处理来自卷积层的针对每个切片的输出，在一些实施例中，利用tanh激活和使用3X3的内核大小的硬S形(sigmoid)递归激活。

单元102内的层共享相同数量的滤波器，并且以升序或降序处理该卷。例如，在一些实施例中，四个单元102具有以下维度和方向性：第一单元102以升序对图像卷应用32个滤波器，第二单元102以降序对图像卷应用32个滤波器，第三单元102以升序对图像卷应用64个滤波器，以及第四单元102以降序对图像卷应用64个滤波器。网络100中的最后Conv-LSTM层108输出单组特征，其表示在多次通过成像卷处理之后网络的发现。具有S形激活的全连接层(S形激活的致密层110)然后计算疾病概率，诸如肺气肿的概率。在一些实施例中，另外识别指示肺气肿诊断的区域，用于经由具有引导向后传播的视觉注意进行事后分析。

如本领域中已知的，LSTM框架在不同时间步骤处理输入并且包括表示短期记忆的隐藏状态和表示长期记忆的单元轨道。在每个时间步骤，LSTM执行三个操作。首先，LSTM执行从长期记忆擦除信息的忘记操作。接下来，LSTM部分记忆操作，其将新信息存储到长期记忆，并且第三，执行更新和输出操作，其将输入、隐藏状态(短期记忆)和长期记忆合成到输出和新隐藏状态。Conv-LSTM扩展LSTM以通过使LSTM操作变成卷积的来对顺序图像数据进行操作。

如上所述，进行实验以评估Conv-LSTM实施方式的性能。作为实验的一部分，比较Conv-LSTM实现方式的性能与2D卷积MIL配置和三维(3D)卷积神经网络(CNN)。图3示出了根据一些实施方式的2D卷积MIL网络或者配置。在该配置200中，成像卷的每个2D切片单独地通过执行2D卷积运算的相同网络，穿插有归一化(例如，批量归一化(“BN”)应用于每个切片)和池化运算以减少模型的维度并且促进训练。卷积网络200为卷的每个切片从许多嵌套卷积操作202输出一系列图像特征。然后，致密层204将这些特征汇总为在给定切片中存在疾病(例如，肺气肿)的0至1概率。用此网络200处理整个卷产生N个疾病概率，其中N是成像卷内的切片数目。在最终层中，MIL汇总函数将切片水平概率汇总成疾病在整个卷中的单个概率。

因此，在该网络200中，图像卷的每个切片是来自MIL方案中的包的样本，由纯卷积2D网络处理。若干不同的算法方法可以用作计算整个卷概率的手段，例如像最大个体切片概率、针对阳性诊断发现加权的切片概率的乘积、跨越切片的均值概率等。例如，在一些实施例中，使用以下等式之一从具有肺气肿的单独概率p_i的N个实例计算总概率P：

均值池：

最大池：

P＝max(p_i)

乘积池：

尽管未在图中示出，3D CNN具有与2D卷积MIL网络300的结构类似的结构，但是具有单个致密层并且在最终卷积层上没有池化操作。

该实验使用了来自参与全国午餐筛选试验(NLST)的11095个独特参与者的总计55673个非对比低剂量CT卷。在整个研究的三年中，诊断为肺气肿的5056名参与者被包括作为阳性样本，并且未诊断为肺气肿的6039名参与者被包括作为阴性样本。80％的患者用于模型训练，其中肺气肿阳性和阴性患者的分布平衡。来自7100名患者的39387个卷用于直接学习模型参数，其中来自1776名患者的9755个卷用于调整超参数。其余的2219名患者(578名肺气肿阳性，1585名肺气肿阴性)，每人每年扫描三次，共6511个卷，用于独立测试。将卷重调至128x128x35，对应于9毫米的平均切片间距。

该实验试图比较Conv-LSTM与适于弱注释图像卷的传统学习方案的性能。为了减少训练所有模型所需的时间和资源，将减少的先导群组用于这个比较，该比较由来自6648个独特患者的8794个低剂量CT卷组成。分别使用4197个卷(来自3166个患者)和2434个卷(来自1319个患者)用于训练和验证。使用来自2163个患者的2163个卷(578个肺气肿阳性，1585个肺气肿阴性)用于测试。以1e-3的学习速率训练每个模型50小时。

当仅用弱注释的成像卷训练时，Conv-LSTM实现有力地识别肺气肿，实现0.83的受试者操作特性曲线下的面积(AUC)。如图4所示，尽管分别比这些架构少110000和57000个参数，但该实现方式优于所有MIL配置和3D CNN(见下表1)。

表1

	内核	参数	AUC	灵敏度	特异性	F1
							MIL–最大池	64	1,011,393	0.69	0.59	0.68	0.63
MIL–均值池	64	1,011,393	0.70	0.76	0.57	0.66
							MIL–乘积池化	64	1,011,393	0.76	0.61	0.79	0.69
3D CNN	36	958,213	0.77	0.61	0.80	0.69
							Conv-LSTM	32	901,793	0.83	0.77	0.74	0.75

已经证明与其他技术相比在检测肺气肿方面的优异性能，Conv-LSTM实现方式被使用全NLST群组再训练总共300个时期。每个时期由200个步骤组成，其中批大小为20，从近40000个训练卷的池中随机选择。在训练期间，沿x、y和z轴的随机翻转被施加以进一步增强数据，并且50％的退出被施加至最终致密层的神经元以防止过度拟合。使用二元交叉熵损失和ADAM优化器训练该模型，其中初始学习速率为1e-4。如果验证损失在20个连续时期之后未能减小，则学习速率减小一半。使用2特斯拉P100GPU训练模型，其中训练时间花费大约27小时。

当使用全训练群组训练时，Conv-LSTM性能在测试集(n＝6511)内增加到AUC＝0.909。在对应于验证群组中鉴定的Youden指数的最佳截断值，测试灵敏度是80.9％并且特异性是86.3％(F1＝0.836)。

由于在跟踪患者的三年期间肺气肿诊断的变化，在之前的实验中将总共3361个NLST患者从模型训练和评估中排除。其中，926名患者在第1年接受肺气肿阳性诊断，但在第2年或第3年接受阴性诊断(但不是两者)。鉴于肺气肿是慢性疾病，这些评估可能代表错过的诊断，并且因此提供评估模型减少假阴性的能力的机会。例如，该模型可以在操作点处应用以评估放射科医生所错过的具有挑战性的情形中的表现。

可能的临床假阴性中的灵敏度是70.6％；接近测试组中在相同截断值下观察到的值(80.9％)。因此，Conv-LSTM模型在由最具挑战性的肺气肿诊断组成的群组中保持强表现。与测试群组中肺气肿阳性和阴性患者之间的0.754±0.328和0.171±0.229相比，肺气肿存在的平均预测概率为0.63±0.370。

在呼气过程中在仰卧位获得标准剂量CT扫描的情况下，从肺组织研究协会(LTRC)获得1405名患者。训练和验证群组分别是800和200名患者。在来自405位患者的扫描上测试该模型。肺气肿边界的手动注释也可用于该群组中的一些患者，但在训练期间不使用。相反，手动注释用于与来自Conv-LSTM网络的视觉显著性图进行比较。

Conv-LSTM模型还可用于通过对标准剂量CT的有限群组的转移学习容易地在新机构处对陌生成像数据执行微调。转移学习一般是指从在数据集或任务上训练的模型开始并且对经训练的模型进行小调整以在第二类型的数据或任务之间优化模型的性能(通常利用比用于初始训练模型的数据池小得多的数据池)。转移学习可允许开发使用较少量的训练数据在不熟悉的数据中实现强结果的模型，因为模型从现有经训练的模型开始。低剂量CT(如在NLST中)典型地用作用于午餐癌症的筛选方法。然而，标准剂量CT可能由于包括多个器官部位的更多种原因而被订购。由于这些检查的主要目的可能不是评估肺，因此自动肺气肿检测具有偶然检测在放射科医生的焦点之外的区域中的疾病的显著潜力。然而，本文所述的Conv-LSTM模型可用不熟悉的获取方案(标准剂量CT)从有限群组的未注释卷中重新训练。因此，这些模型提出了可行的机制，用于通过在可用临床成像和诊断信息的有限数据集上进行简单转移学习来解释在例如机构之间部署深度模型时先前未遇到的变异性来源。因此，这些模型可以用作检查放射科医生的诊断和检测错过的疾病检测(如肺气肿)的准确且灵活的系统。

例如，图5描绘了使用不同大小的标准剂量CT训练群组的转移学习的表现。当该模式不经转移学习而直接应用于标准剂量CT时，验证AUC是0.836。利用全800名训练患者获得最佳结果(验证AUC为0.916)，但500名患者中的少数患者可以产生同样强的AUC大于或等于0.90的性能。

当以n＝800调谐并且应用于测试群组(n＝405)时，AUC提高至0.945。在验证中识别的操作点对应于84.4％的灵敏度并且在测试中特异性是92.7％(F1＝0.886)。示例性视觉注意图展示了与手动肺气肿注释的强一致性(参见图6)，并且可以用来帮助定位诊断。

因此，如上所述，对医学成像中的深度学习应用的挑战是需要用于模型训练的大的带注释的医学成像数据集。能够从具有弱的、容易获得的标签的数据中高效地学习的深度学习方案(诸如本文中描述的方法和系统)规避了该限制。例如，使用在此描述的方法和系统，可以使用大量临床成像数据集快速开发仅依赖于用于训练的二元诊断标签的深度计算机辅助诊断(CAD)平台并且容易地适应来自可用数据的新临床上下文(例如，微调到新机构或采集协议)。

特别地，本文中描述的实施方式提供能够从仅弱注释的图像卷学习疾病特征的卷积递归框架。用于弱监督学习问题的传统方法(诸如，MIL)对空间分布的图像样本的“包”进行操作，但是未考虑样本之间的空间关系，并且可能受到潜在限制性的包池化操作的阻碍。本文描述的卷积长短期记忆(Conv-LSTM)实现通过针对扫描区域的一部分中的疾病的存在顺序地处理卷并更新表征整个卷中的疾病存在的单组特征来解决这些缺点。如上所述，在各种配置中，尤其与3D CNN和MIL(与2D CNN耦合的弱监督学习策略)相比，使用该方法提供了用于检测肺气肿的强有力工具。具体地，在一些实施例中，本文所描述的实现方式不需要成像数据的耗时的注释或手动处理，这使得能够使用弱标记的图像卷的扩展临床数据集。此外，在一些实施例中，如图6所示，尽管模型训练期间没有使用手动注释，但所提出的网络实现方式的视觉注意图基本上与由放射科医生手动划定的肺气肿存在的标准剂量CT扫描的小部分的地面真值重叠。例如，图6展示了手动注释的肺气肿地面真值(左，红)和由本文所述的Conv-LSTM模型生成的视觉注意图(右)之间的空间对准。因此，这些模型可以跨许多不同的肺气肿呈现来定位疾病模式，即使在仅从卷级别的二元训练标签来进行训练时。

应当理解，本文所述的功能可经由一个或多个计算设备(诸如一个或多个服务器)来执行。例如，图7示出根据一些实施例的用于使用本文所述的Conv-LSTM实现方式从弱标记的卷式成像训练疾病检测模型的系统700。如图7所示，系统700包括服务器705、图像存储库715和报告存储库718。服务器705、图像存储库715和报告存储库718经由一个或多个有线或无线通信网络720进行通信。无线通信网络720的部分可使用广域网(诸如互联网)、局域网(诸如Bluetooth^TM网络或Wi-Fi)及其组合或衍生物来实现。应当理解，系统700可包括更多或更少的服务器，并且图7中所示的单个服务器705仅用于说明性目的。例如，在一些实施例中，本文描述的功能经由分布式或云计算环境中的多个服务器来执行。此外，在一些实施例中，服务器705可与多个图像存储库或多个报告存储库通信。此外，在一些实施例中，图像存储库可以与报告存储库组合，并且在一些实施例中，这些存储库中的一个或多个可以与服务器705组合。此外，在一些实施例中，系统700中所示的组件可以通过一个或多个中间设备(未示出)通信。

在一些实施例中，三维图像卷被存储在图像存储库715中。图像存储库715可以是例如图片存档和通信系统(PACS)、云存储环境等。存储在图像存储库715中的三维图像卷通过诸如X射线计算机断层摄影(CT)扫描仪、磁共振成像(MRI)扫描仪等的成像模态(未示出)来生成。在一些实施例中，图像存储库715还可以被包括作为成像模态的一部分。如上所述，存储在图像存储库中的成像卷是未注释的。

报告储存库718存储用于图像研究的放射学报告(图像卷)，例如存储在图像储存库715中的图像卷。例如，报告储存库718可包括放射学信息系统(RIS)、电子医疗记录(EMR)系统、医院信息系统(HIS)等。此外，在一些实施方式中，报告储存库718包括PACS并且可与图像储存库组合。

如图7所示，服务器705包括电子处理器750、存储器755和通信接口760。电子处理器725、存储器730和通信接口760通过有线通信信道或总线或其组合进行无线通信。服务器705可以包括除图7中所示的那些组件之外的不同配置的附加组件。例如，在一些实施例中，服务器705包括多个电子处理器、多个存储器模块、多个通信接口或其组合。此外，应当理解，本文描述为由服务器705执行的功能可以由位于不同地理位置中的多个计算机以分布式性质执行。例如，在此描述为由服务器705执行的功能可以由包括在云计算环境中的多个计算机执行。

电子处理器750可以是微处理器、专用集成电路(ASIC)等。电子处理器750通常被配置为执行软件指令以执行功能(包括本文所描述的功能)的集合。存储器755包含非瞬态计算机可读介质且存储数据，包含可由电子处理器750执行的指令。通信接口760可以是，例如，有线或无线收发器或端口，用于通过通信网络720进行通信，以及可选地，通过一个或多个额外的通信网络或连接进行通信。

如图7所示，服务器705的存储器755包括检测模型765和训练集775。应当理解，在一些实施例中，本文描述为由检测模型765(或其训练)提供的功能可以在各种配置中被分布和组合，诸如通过多个单独的软件应用。检测模型765包括如上所述的Conv-LSTM模型，其经由训练集775训练。如上所述，训练集包括未注释的图像卷(从图像存储库715检索或访问)和相关联的二元标签(从报告存储库718检索或访问)。在经由训练数据775训练检测模型765之后，检测模型765可以用于输出疾病(诸如根据以上示例的肺气肿)的预测。

在一些实施例中，在已经用数据池训练了模型之后，该模型不需要访问该数据来操作。例如，训练网络的过程本质上涉及学习一组操作以从训练数据执行任务。可以存储所学习的操作集(通常被称为神经网络的“权重”)以重复任务，而不存储训练数据本身。在一些实施例中，存在用于使用网络的两个可能的实现方式，并且在一些实施例中，这些实现方式均不需要继续存储训练集。例如，在一个实现中，网络可用由一个源(其可使用来自一个或多个机构的训练数据来训练)提供的训练集来训练。然后，可以在服务器上使经训练的模型可用于相同的源或不同的源(例如，在医院或在云上)。在该实现方式中，患者数据不需要被保留在服务器上。

在另一实现方式中，机构可使用它们自己的弱标记的数据来优化原始权重，以实现机构的优化性能(被称为如上所述的转移学习的过程)。在该实现方式中，训练集可以由机构(例如，医院)提供在服务器上以执行转移学习。然而，在通过传递学习已经学习到新的权重之后，训练集不需要被保留在存储器中(在服务器上)。

还应理解，本文所述的系统和方法不限于肺气肿或甚至肺疾病或异常，而是可在二元标签可用时，甚至当专家注释不可用时(卷成像数据和放射学报告的可用性超过放射科医生提供手动注释的能力)，与各种类型的卷图像数据一起使用。此外，本文所述的实施方式可与不同切片间隔一起使用且甚至与具有任意数目的切片的图像卷一起使用(所使用的所有扫描不一定需要具有相同数目的切片)。

而且，Conv-LSTM网络的其他实现方式可在不同情况下使用。例如，在一些实施例中，Conv-LSTM网络可与MIL组合。该方法在网络扫描图像卷时对基于每个切片生成的预测进行加权。图8示出了这种Conv-LSTM和MIL组合的示例性网络800。在网络800(类似于经由网络100实现的Conv-LSTM方法)中，通过一系列卷积和卷积LSTM操作来处理成像卷。然而，不是仅取得来自由最后卷积LSTM分析的最终序列的输出，而是将来自每个卷积LSTM单元的每个切片的输出并入MIL的单个预测中。具体地，相同的致密层可连接至卷积LSTM的每个顺序输出以提供疾病可能性的N个预测，并且如在2D卷积MIL实现方式中，可例如通过计算切片概率的平均值来计算整个卷的整体疾病概率。在一些实施例中，以上关于图3和MIL网络300描述的任何等同可以用于计算整体概率。

与Conv-LSTM实施方式相比，Conv-LSTM MIL实施方式在验证集中实现更好的性能，因此，在一些情况下，可表示最佳配置。特别地，在保持的测试集中，Conv-LSTM MIL实现具有0.8751的AUC、53.32％的截断1灵敏度(50％灵敏度)、96.05％的截断1特异性(50％灵敏度)、23.80％的截断2灵敏度(20％灵敏度)和99.52％的截断2特异性(20％灵敏度)。此外，在一扫描群组中，尽管之前一些年有阳性诊断，但很可能错过了肺气肿的诊断(这些扫描对诊断来说很可能特别有挑战性)，Conv-LSTM MIL实现在每个截断值下达到42.76％和15.98％的灵敏度。此外，当再训练Conv-LSTM MIL模型并在完全验证集(n＝9，775)上评估时，该模型的AUC为0.8482，截止1特异性(50％灵敏度)为96.49％，截止2特异性(20％灵敏度)为99.57％。

应当理解，在一些实施例中，在给定每种疾病的二元标签的情况下，可以检测多于一种疾病作为构建训练集的一部分(例如，通过检测多个标签)。在此实现方式中，每个检测到的疾病可以用于生成如上所述的单独模型。此外，在一些实施例中，可以修改上述网络，使得该网络输出针对多个疾病的一组预测。例如，可以开发检测肺气肿、癌症、以及肺炎的模型(通过使用多个标签)。在此实现方式中，该模型可以输出向量([p_肺气肿、p_癌症、p_肺炎])。因此，在该实现方式中，可以训练网络以同时检测所有这三种疾病。

在以下权利要求中阐述了一些实施例的不同特征和优点。

Claims

1.一种用于开发疾病检测模型的系统，所述系统包括：

一个或多个电子处理器，被配置为：

使用图像研究和从针对所述图像研究生成的放射学报告中挖掘的相关联的疾病标签来训练所述疾病检测模型，所述图像研究包括三维图像卷的多个二维切片的序列，所述疾病检测模型包括卷积神经网络层和卷积长短期记忆层，其中训练所述疾病检测模型包括：

使用所述卷积神经网络层从所述多个二维切片中的每一个单独地提取一组特征；

使用所述卷积长短期记忆层顺序地处理由所述卷积神经网络层针对所述多个二维切片中的每一个提取的所述一组特征；

处理来自所述卷积长短期记忆层的针对所述多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率；

将所述概率与所述标签进行比较；

基于所述比较更新所述疾病检测模型；以及

在训练所述疾病检测模型之后，将所述疾病检测模型应用于新图像研究，以针对新图像研究生成所述疾病的概率。

2.根据权利要求1所述的系统，其中，所述疾病标签包括与所述图像研究相关的患者是否被诊断患有所述疾病的二元标签。

3.根据前述权利要求中任一项所述的系统，其中，所述疾病的概率是肺气肿的概率。

4.根据前述权利要求中任一项所述的系统，其中，所述多个二维切片包括包含胸部的一系列计算机断层摄影(CT)图像。

5.根据前述权利要求中任一项所述的系统，其中，所述三维图像卷不包括任何注释。

6.根据前述权利要求中任一项所述的系统，其中，使用所述卷积长短期记忆层顺序地处理由所述卷积神经网络层针对所述多个二维切片中的每一个提取的所述一组特征包括透过所述三维图像卷检测空间模式和变化。

7.根据前述权利要求中任一项所述的系统，其中，所述疾病检测模型包括两个双向单元对，其中，每个单元包括所述卷积层和所述卷积长短期记忆层。

8.根据前述权利要求中任一项所述的系统，其中，所述两个双向单元对包括第一单元、第二单元、第三单元、以及第四单元，所述第一单元按照所述多个二维切片的升序将32个滤波器应用于所述三维图像卷，所述第二单元按照所述多个二维切片的降序将32个滤波器应用于所述三维图像卷，所述第三单元按照所述升序将64个滤波器应用于所述三维图像卷，所述第四单元按照所述降序将64个滤波器应用于所述三维图像卷。

9.根据前述权利要求中任一项所述的系统，其中，所述一个或多个处理器被配置为通过将来自所述多个二维切片中顺序上最后的单组特征输出至S形激活致密层来处理来自所述卷积长短期记忆层的针对所述多个二维切片中顺序上最后的二维切片的输出，以生成所述疾病的概率。

10.根据前述权利要求中任一项所述的系统，其中，所述疾病检测模型进一步包括用于所述卷积长短期记忆层的最大池化层。

11.一种用于开发疾病检测模型的方法，所述方法包括：

使用一个或多个电子处理器使用图像研究和从针对所述图像研究生成的放射学报告中挖掘的相关联的疾病标签来训练所述疾病检测模型，所述图像研究包括三维图像卷的多个二维切片的序列，所述疾病检测模型包括卷积神经网络层和卷积长短期记忆层，其中训练所述疾病检测模型包括：

处理来自所述卷积长短期记忆层的针对所述多个二维切片中顺序上最后的二维切片的输出，以生成疾病的概率；

将所述概率与所述标签进行比较；

基于所述比较更新所述疾病检测模型；以及

在训练所述疾病检测模型之后，将所述疾病检测模型应用于新图像研究，以生成用于所述新图像研究的所述疾病的概率。

12.根据权利要求11所述的方法，其中，所述疾病标签包括与所述图像研究相关的患者是否被诊断患有所述疾病的二元标签。

13.根据权利要求11或12中任一项所述的方法，其中所述疾病的所述概率是肺气肿的概率。

14.根据权利要求11至13中任一项所述的方法，其中，所述多个二维切片包括包含胸部的一系列计算机断层摄影(CT)图像。

15.根据权利要求11至14中任一项所述的方法，其中，所述三维图像卷不包括任何注释。

16.根据权利要求11至15中任一项所述的方法，其中，所述疾病检测模型包括两个双向单元对，其中，每个单元包括所述卷积层和所述卷积长短期记忆层。

17.根据权利要求11至16中任一项所述的方法，其中，处理来自所述卷积长短期记忆层的针对所述多个二维切片中顺序上最后的二维切片的输出以生成疾病的概率包括将从所述多个二维切片中顺序上最后的二维切片的单组特征输出至S形激活致密层。

18.一种用于开发疾病检测模型的计算机程序产品，所述计算机程序产品包括：计算机可读存储介质，所述计算机可读存储介质可由处理电路读取并且存储用于由所述处理电路执行以执行根据权利要求11至17中任一项所述的方法的指令。

19.一种计算机程序，存储在计算机可读介质上并可加载到数字计算机的内部存储器中，所述计算机程序包括软件代码部分，当所述程序在计算机上运行时，所述软件代码部分用于执行根据权利要求11至17中任一项所述的方法。