CN111095426A

CN111095426A - 使用深度神经网络的计算机辅助诊断

Info

Publication number: CN111095426A
Application number: CN201880051722.6A
Authority: CN
Inventors: 马克-扬·哈特
Original assignee: Edens Ltd
Current assignee: Edens Ltd
Priority date: 2017-08-10
Filing date: 2018-08-10
Publication date: 2020-05-01
Also published as: US20200219609A1; HUE064495T2; WO2019030410A1; CA3072380A1; JP7391846B2; JP2020530177A; NL2019410B1; EP3665703C0; ES2967682T3; EP3665703B1; US11783936B2; EP3665703A1

Abstract

描述了一种用于确定3D图像数据中的病理的计算机实现的方法，其中，该方法可以包括：接收身体部位的至少第一3D图像，3D图像包括与预定图像体积相关的体素；第一3D卷积神经网络确定感兴趣的体积(VOI)在第一3D图像的图像体积中的位置，VOI与身体部位的病理相关，VOI定义图像体积的子体积；通过选择第一3D图像的具有由第一3D卷积神经网络确定的VOI内的位置的体素来确定第一VOI体素，并将第一VOI体素提供到第二3D卷积神经网络的输入；第二3D卷积神经网络基于至少第一VOI体素确定目标标签值，目标标签值指示VOI中存在或不存在病理；以及通过将由第二3D卷积神经网络确定的目标标签值与代表病理描述的文本和/或句子进行关联，生成医学报告。

Description

使用深度神经网络的计算机辅助诊断

技术领域

本发明涉及使用深度神经网络的计算机辅助诊断，并且特别地但非排他地涉及用于使用深度神经网络的计算机辅助诊断的方法和系统以及使用这样的方法的计算机程序产品。

背景技术

计算机辅助诊断(CAD)是一种用于提供客观的意见以帮助医学图像解释和诊断的计算机化程序。在这样的程序医学图像中，例如将患者的MRI图像提供到程序的输入，该程序被配置为检测(即，定位)图像中的某些明显的结构和部分，并随后根据病理分类评估检测到的结构和部分。通常，常规的图像处理技术(诸如特征分析和对象跟踪)用于检查图像并从图像中提取有用的信息。然而，特征分析在很大程度上取决于问题的类型和需要处理的图像数据的类型。为了解决这些问题，最近将深度神经网络用于图像分析，从而允许直接检测和识别2D图像中的特征。

例如，Cheng et al,“Computer-Aided Diagnosis with Deep LearningArchitecture:Applications to Breast Lesions in US Images and PulmonaryNodules in CT Scans”,Nature Scientific Reports,15April 2016中，描述了一种计算机辅助诊断的研究，其使用一种称为“堆叠式降噪自动编码器(Stacked Denoising Auto-Encoder，SDAE)”的特定深度神经网络结构对良性和恶性结节/病变进行鉴别诊断。使用图像中的预选区域(感兴趣的区域或ROI)对深度神经网络进行了训练，这些预选区域包括标记的结节或病变。研究表明，基于深度神经网络的CAD系统的性能执行得优于某些常规的基于纹理的CAD系统或至少与其匹配。

因此，为了诊断病理，可以将2D医学图像(例如DICOM“切片(slice)”)输入经过训练的深度神经网络。然而，解剖结构不限于2D平面，而是具有3D结构，对于医生而言，接收在三个维度上的关于诊断的信息是有利的。为了获知这些3D结构，需要3D模型。直接将3D图像数据而不是2D图像数据供应到经过训练的神经网络的输入将是有益的。

然而，将深度神经网络技术从2D(像素)空间扩展到3D(体素)空间并有效地生成经过训练的深度网络(其中所述深度网络可以以足够的精度处理3D图像数据，从而可以用作可靠的诊断工具)，这并不是显而易见的，并且由于3D建模所需的巨大计算需求，因此提出了严峻的挑战。例如，典型的MRI 2D“切片”包括512*512＝262K像素，而完整的3D系列(包含200个“切片”)包括200*512*512＝5.2M体素。因此，对于大的3D数据集，处理量变大并且常常是不可克服的负担，这严重地阻碍了在3D图像数据集上的实际应用。

US2016174902A1描述了一种用于使用所谓的边缘空间深度神经网络来检测解剖对象的计算机辅助检测系统的示例。所描述的系统包括一系列经过训练的深度神经网络，其中，每个神经网络针对具有增加的维数的特定参数空间进行训练，例如位置、位置方向、位置方向比例(position-orientation-scale)等。为了解决处理大3D体积的问题，深度神经网络体系结构使用所谓的“堆叠式降噪自动编码器”(SDAE)和“稀疏自适应深度神经网络”(sparse adaptive deep neural network，SADNN)。有效地，SADNN是一种用于简化深度神经网络的技术，使得过程的计算强度降低。然而，这种方法可能影响系统的精确性。此外，该系统被配置为用于检测解剖对象。它不能够提供有助于医学图像解释和诊断的客观见解。

因此，根据上述，在本领域中需要改善的基于深度神经网络的系统，所述系统允许基于体素的体积进行有效且精确的计算机辅助诊断。特别地，在本领域中需要改善的基于深度神经网络的系统，所述系统允许基于医学图像序列的体素的体积有效且精确地检测、定位、分类和报告病理。

发明内容

如本领域技术人员将理解的，本发明的各方面可以体现为系统、方法或计算机程序产品。因此，本发明的多方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或结合软件和硬件方面(本文中可以通常都称为“电路”、“模块”或“系统”)的实施例的形式。本公开中描述的功能可以被实现为由计算机的微处理器执行的算法。此外，本发明的多方面可以采取体现在具有例如存储在其上的计算机可读程序代码的一个或更多个计算机可读介质上的计算机程序产品的形式。

可以利用一个或更多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外、或半导体系统、设备或装置或前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下：具有一根或更多根线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述的任何合适的组合。在本文的上下文中，计算机可读存储介质可以是任何有形介质，其可以包含或存储供指令执行系统、设备或装置使用或与其结合使用的程序。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分的传播的数据信号，其具有体现在其中的计算机可读程序代码。这样的传播信号可以采取多种形式中的任何一种，包括但不限于电磁、光学或其任何合适的组合。计算机可读信号介质可以是不是计算机可读存储介质并且可以通信、传播或传输供指令执行系统、设备或装置使用或与其结合使用的程序的任何计算机可读介质。

包含在计算机可读介质上的程序代码可以使用任何适当的介质来传输，包括但不限于无线、有线、光纤、电缆、RF等，或者上述的任何合适的组合。可以以一种或更多种编程语言的任何组合来编写用于执行本发明的多方面的操作的计算机程序代码，所述编程语言包括诸如Java(TM)、Smalltalk、C++等的面向对象的编程语言，以及诸如“C”编程语言或类似的编程语言的常规的程序编程语言。程序代码可以完全在用户计算机上执行，部分在用户计算机上执行，作为独立软件包执行，部分在用户计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以与外部计算机连接(例如，通过使用因特网服务提供商的因特网)。

下面参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述本发明的多方面。将理解的是，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的一个或更多个处理器，特别是(图形)微处理器、中央处理单元(CPU)或图形处理单元(GPU)以产生机器，使得经由计算机的处理器、其他可编程数据处理设备或其他设备执行的指令创建用于实现流程图和/或框图框或多个框中指定的功能/动作的方法。

这些计算机程序指令还可以存储在计算机可读介质中，所述计算机可读介质可以指导计算机、其他可编程数据处理设备或其他设备以特定方式运行，使得存储在计算机可读介质中的指令产生制造的产品，其包括实现流程图和/或框图框或多个框中指定的功能/动作的指令。

也可以将计算机程序指令加载到计算机、其他可编程数据处理设备或其他设备上，以导致一系列操作步骤在计算机、其他可编程设备或其他装置上执行以产生计算机实现的过程，使得在计算机或其他可编程设备上执行的指令提供用于实现流程图和/或框图框或多个框中指定的功能/动作的过程。

附图中的流程图和框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。就这点而言，流程图或框图中的每个框可以代表代码的模块、节段或部分，其包括用于实现指定的逻辑功能的一个或更多个可执行指令。还应注意，在一些替代实施方式中，框中指出的功能可以不按图中指出的顺序发生。例如，取决于所涉及的功能，实际上可以基本上同时执行连续示出的两个框，或者有时可以以相反的顺序执行这些框。还应注意，框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合来实现。

本发明的目的是减少或消除现有技术中已知的至少一个缺点。在一个方面，本发明可以涉及一种用于确定3D图像数据中的病理的计算机实现的方法，包括：接收身体部位的至少第一3D图像，3D图像包括与预定图像体积相关的体素；第一3D卷积神经网络确定感兴趣的体积(VOI)在第一3D图像的图像体积中的位置，所述VOI与身体部位的病理相关，所述VOI定义图像体积的子体积；通过选择第一3D图像的具有由第一3D卷积神经网络确定的VOI内的位置的体素来确定第一VOI体素，并将第一VOI体素提供到第二3D卷积神经网络的输入；第二3D卷积神经网络基于至少第一VOI体素确定目标标签值，所述目标标签值指示在VOI中存在或不存在病理。

因此，本发明使用第一深度神经网络来预处理3D图像数据，所述3D图像数据用作用于第二深度神经网络的3D训练数据。第一深度神经网络提供与VOI相关的位置，所述VOI包含3D图像的可以包含病理的体积。这样，仅3D图像的相关体素可以用作另一深度神经网络的输入，所述另一深度神经网络被配置为生成可以与特定病理相关的目标标签。本发明包括全3D深度神经网络的应用，以便将解剖3D结构用于病理分类，从而获得更高的性能，同时还使用深度学习网络以3D定位的形式应用性能优化，以便减少执行病理分类所需的体积。

预处理基本上减小与训练过程有关的训练集的3D图像数据的量，从而基本上改善3D神经网络的训练时间。此外，通过去除不相关的数据，可以减少计算的复杂性。因此，本发明允许在给定的时间段内进行更多的训练迭代，因此导致能够生成改善的疾病模型的经过训练的深度学习网络。考虑到训练时间可以增长到一周或更长时间，因此这种定位提供大量的益处。

优选地，神经网络可以被训练以确定诸如关节(特别是膝盖)的身体部位中的病理。

在实施例中，所述方法还可以包括通过将由第二3D卷积神经网络确定的目标标签值与代表病理描述的文本和/或句子进行关联，生成医学报告。因此，可以将目标标签与文本字符串连接，所述文本字符串可以用于构造用于计算机生成的医学报告的文本，其中，文本提供关于存在一种或更多种病理的信息。

在实施例中，医学报告的生成可以包括：如果目标标签值在预定第一范围内，则确定描述病理(例如半月板撕裂)已经被确定的第一文本字符串；如果目标标签值在预定第二范围内，则确定描述特定病理(例如半月板撕裂)没有被确定的第二文本字符串。

在另一实施例中，医学报告的生成可以包括将第一文本字符串或第二文本字符串插入代表报告模板的文本字符串中。

在实施例中，所述方法还可以包括：从第二卷积神经网络的卷积层获取与VOI体素相关的3D概率图，并且使用3D概率图作为反向传播过程的输入，以生成与VOI体素相关的3D显著性图。在实施例中，所述方法还可以包括：通过使用3D显著性图识别VOI中的对由第二3D卷积神经网络确定目标标签值做出显著贡献的体素，来生成VOI中的病理的注释3D图像。在实施例中，所述方法可以包括在报告中插入注释3D图像或者注释3D图像的一个或更多个2D切片。因此，本发明还允许VOI中的病理的3D可视化。这样的可视化为医学专家在3D图像评估和诊断中提供了有价值的信息。

在实施例中，第一3D图像可以包括第一图像平面的图像的序列，优选地，矢状图像平面的图像的序列。在实施例中，所述方法还可以包括：接收身体部位的第二3D图像，第二3D图像包括第二图像平面的图像的序列，优选地，冠状图像平面的图像的序列；通过选择第二3D图像的具有VOI内的位置的体素确定第二VOI体素；基于第一VOI体素和第二VOI体素，第二3D卷积神经网络确定目标标签值。

在实施例中，第二3D卷积神经网络可以至少包括第一多个3D卷积神经网络层和第二多个3D卷积神经网络层，第一多个3D卷积神经网络层通过神经网络形成第一路径，第二多个3D卷积神经网络层通过第二神经网络形成第二路径。

在实施例中，第一多个3D卷积神经网络层可以被配置为处理第一VOI体素，第二多个3D卷积神经网络层可以被配置为处理第二VOI体素。

在实施例中，第一3D卷积神经网络和/或第二3D卷积神经网络可以包括一个或更多个噪声层。

在另一方面，本发明可以涉及一种用于训练系统中的一个或更多个3D深度神经网络的计算机实现的方法，系统被配置为确定3D图像数据中的病理。

在实施例中，所述方法可以包括：计算机接收医学研究的3D图像数据训练集，3D图像数据训练集包括3D图像，3D图像包括与预定图像体积相关并的体素与医学报告相关，医学报告包括指示3D图像中的病理的计算机可读文本部分和/或句子；对于3D图像训练数据的每个3D图像，基于3D图像的切片中的2D感兴趣的区域(ROI)来形成3D边界框，3D边界框形成3D图像的图像体积中的子体积，子体积定义感兴趣的体积(VOI)；对于3D图像训练数据的每个3D图像，确定VOI在图像体积中的位置，并且确定位于VOI中的体素；以及使用每个VOI的体素作为输入并使用VOI的位置作为目标训练第一3D卷积神经网络。

在实施例中，所述方法还可以包括：对于3D图像训练数据的每个3D图像，处理与VOI相关的医学报告的计算机可读文本和/或短语以产生目标标签值，目标标签值指示在VOI中存在或不存在病理；使用VOI的体素作为输入并使用与VOI相关的目标标签值作为目标训练第二3D卷积神经网络。

在实施例中，处理计算机可读文本和/或短语可以包括：使用决策树来描述一个或更多个短语和/或词的存在或不存在如何确定目标标签值。

在又一方面，本发明可以涉及一种适于确定3D图像数据中的病理的计算机系统。在实施例中，计算机可以包括：存储介质，其中存储有计算机可读程序代码，代码包括第一3D卷积神经网络和第二3D卷积神经网络；以及耦接到计算机可读存储介质的一个或更多个处理器，优选地一，个或更多个微处理器，其中，在执行计算机可读程序代码时，系统执行包括以下的操作：接收身体部位的至少第一3D图像，3D图像包括与预定图像体积相关的体素；第一3D卷积网络确定感兴趣的体积(VOI)在第一3D图像的图像体积中的位置，所述VOI与身体部位的病理相关，所述VOI定义图像体积的子体积；通过选择第一3D图像的具有由第一3D卷积神经网络确定的VOI内的位置的体素来确定第一VOI体素，并将第一VOI体素提供到第二3D卷积神经网络的输入；第二3D卷积神经网络基于至少第一VOI体素确定目标标签值，所述目标标签值指示在VOI中存在或不存在病理；以及通过将由第二3D卷积神经网络确定的目标标签值与代表病理描述的文本和/或句子进行关联，生成医学报告。

在实施例中，所述操作还可以包括：从第二卷积神经网络的卷积层获取与VOI体素相关的3D概率图，并且使用3D概率图作为反向传播过程的输入，以生成与VOI体素相关的3D显著性图；通过使用3D显著性图识别VOI中的对由第二3D卷积神经网络确定目标标签值做出显著贡献的体素，来生成VOI中的病理的注释3D图像。

在实施例中，所述操作还可以包括：在报告中插入注释3D图像或者注释3D图像的一个或更多个2D切片。

在实施例中，第一3D图像可以包括第一图像平面的图像的序列，优选地，矢状图像平面的图像的序列。在实施例中，所述操作还可以包括：接收身体部位的第二3D图像，第二3D图像包括第二图像平面的图像的序列，优选地，冠状图像平面的图像的序列；通过选择第二3D图像的具有VOI内的位置的体素确定第二VOI体素；基于第一VOI体素和第二VOI体素，第二3D卷积神经网络确定目标标签值。

将参照附图进一步说明本发明，附图将示意性地示出根据本发明的实施例。将理解的是，本发明不以任何方式限于这些特定实施例。

附图说明

图1示意性地描绘根据本发明的实施例的使用深度神经网络的用于计算机辅助诊断的系统；

图2示意性地描绘根据本发明的实施例的定位器模块；

图3描绘图像数据体积的注释切片(slice)的示例；

图4示意性地描绘根据本发明的实施例的用于模型化定位器模型的深度神经网络体系结构；

图5示意性地描绘根据本发明的实施例的用于模型化病理模型的深度神经网络体系结构；

图6示意性地描绘根据本发明的实施例的训练3D深度神经网络的计算机实现的方法；

图7描绘根据本发明的实施例的包括经过训练的深度学习网络的3D定位器模块；

图8示意性地描绘根据本发明的另一实施例的训练3D深度神经网络的计算机实现的方法；

图9示意性地描绘根据本发明的实施例的用于使用3D深度神经网络的计算机辅助诊断的计算机系统；

图10描绘根据本发明的实施例的使用用于计算机辅助诊断的系统生成的报告的示例；

图11描绘根据本发明的实施例的由用于计算机辅助诊断的系统生成的VOI的切片的注释图像的示例；

图12是示出如本公开中描述的可以用于诊断系统中的示例性数据处理系统的框图。

具体实施方式

在本公开中描述了计算机系统和计算机实现的方法的实施例，所述系统和方法基于3D图像数据(例如由诸如MRI或CT图像的医学图像的一个或更多个序列(sequence)定义的3D图像数据)，使用深度神经网络对解剖结构的病理进行检测、定位、分类、报告和可视化。这些系统和方法特别适合于应用于计算机辅助检测和诊断中。

根据本发明的计算机系统可以包括两种模式，训练模式和推断模式。当系统处于训练模式时，执行训练过程，其中系统基于包括3D图像数据的一个或更多个训练集迭代地训练(优化)至少两个深度神经网络。第一经过训练的深度神经网络(即，描述经过训练的深度神经网络的连接的多个(典型地，数百万个)参数的数据库)可以代表被配置为生成3D计算机辅助诊断的病理模型，第二经过训练的深度神经网络可以代表3D定位器模型，所述3D定位器模型被配置为提供包含在训练集的3D图像数据的体积(简称图像体积)的感兴趣体积(VOI)中的3D图像数据的位置。在下文中更详细地描述了在计算机辅助诊断中的这些经过训练的深度神经网络的使用和这些网络的训练。当系统处于推断模式时，为了精确且有效地地检测、定位和报告新3D图像数据中的病理，计算机系统可以执行以下过程，其中，可以将解剖结构的新3D图像数据集(即，除训练集之外的数据集)提供到经过训练的深度神经网络的输入，使得深度神经网络可以处理输入数据。

图1示意性地描绘根据本发明的实施例的使用深度神经网络的用于计算机辅助诊断的计算机系统。特别地，图1描绘用于计算机辅助诊断的计算机系统，其中系统处于训练模式。在该模式下，基于训练数据集104，即，包括3D图像数据和可选地一个或更多个其他数据类型(诸如代表关于训练数据集的3D图像数据中所代表的病理的专家信息的短语和/或词124)的数据集，训练第一3D深度神经网络114。3D图像数据可以包括与预定体积相关的体素，简称为图像体积。训练数据集可以包括预选的3D图像数据(诸如MRI或CT图像的序列)、以及与预选的3D图像数据相关的例如为计算机可读文本文件的形式的放射学报告的相关部分。

在训练过程期间，为了迭代地训练网络，训练数据集可以被输入到第一深度神经网络。在实施例中，训练数据集可以包括：一个或更多个MRI图像序列，其形成3D图像数据栈并且代表具有预定病理(例如特定半月板撕裂)的身体的一部分(例如膝盖)的解剖；一个或更多个报告(的相关文本部分)，例如与训练数据相关的放射学报告，其中，所述报告包括关于由例如医生等的专家诊断的病理的信息。

通过使损失函数最小化，其中所述损失函数代表深度神经网络的输出与代表用于预定输入(即，训练集)的期望输出的目标标签(例如，识别病理的标签)之间的偏差，可以使用已知的随机梯度下降优化方法来获知第一深度神经网络的网络参数的最优值。当损失函数的最小值收敛到某个值时，可以完成训练过程。

第一经过训练的3D神经网络可以代表疾病模型130，所述疾病模型能够精确地分类和报告被提供到经过训练的网络的输入的3D图像数据中的病理。这里，分类可以包括：生成目标标签值；确定目标标签值是表示阳性结果(例如，检测到半月板撕裂)还是阴性结果(未检测到半月板撕裂)；将代表阳性结果或阴性结果的语义表示的计算机生成的文本和/或短语进行关联。这些文本和/或短语，阳性结果的代表语义或文本表示的至少第一文本和/或短语(例如，第一ascii码字符串)以及阴性结果的代表语义或文本表示的至少第二文本和/或短语(例如，第二ascii码字符串)，可以被储存在系统的数据库中。

在执行第一3D深度神经网络的训练过程期间，计算机系统可以在将数据馈送到病理模型114的第一3D深度神经网络之前对训练数据进行预处理。训练数据集的3D图像数据可以包括与相同图像体积相关的若干组3D图像数据，每组都是使用不同的采集平面(acquisition plane)(例如矢状或冠状采集平面)和脉冲序列(例如TE和TR时间)生成的。在实施例中，数据可以包括：至少第一组3D图像数据，基于矢状采集平面使用重复RE时间和/或回波TE时间而生成；至少第二组3D图像数据，基于冠状采集平面使用重复RE时间和/或回波TE时间而生成。基于放射学专业知识，可以选择与病理相关性最高的一个或更多个系列。这些选择的系列可以用作训练数据集。通常，图像来源于不同的医院，因此可能具有不同的数据格式，例如DICOM格式等。在这种情况下，首先需要将图像数据转换为适合于后续处理的标准格式。

例如，在实施例中，MPEG-4视频格式可以用于3D图像数据的存储和处理。另外，在实施例中，可以将归一化处理应用于3D图像数据，例如图像亮度可能需要归一化，因为这在不同系列和/或研究中可能不一致。可以使用已知的图像数据归一化处理，诸如对比度受限的自适应直方图均衡化。系统的转换模块106可以适于执行图像数据的转换和归一化并将归一化的图像数据存储在数据库108中。

医学图像序列可以代表患者的特定扫描体积的3D图像。然而，在许多情况下，计算机系统不必基于整个3D图像数据集训练第一深度神经网络，因为与它的某些部分没有医学相关性。例如，为了诊断半月板撕裂，不必包括与胫骨和股骨相关的3D图像数据。训练时间量线性地取决于确定3D图像数据体积的体素的数量。因此，在形成3D图像数据体积的一系列图像的每个图像中定位包含相关信息的2D区域，可以显著减小3D训练体积的大小。

为此，在将训练数据集的3D图像数据转换成标准化和归一化的数据格式之后，计算机系统可以将归一化的3D图像数据馈送到3D定位器110的输入，述3D定位器所110包括第二深度神经网络，所述第二深度神经网络被训练以确定3D图像数据的(归一化的)图像体积内的所谓感兴趣的体积(VOI)的位置，其中，VOI定义包含需要诊断的解剖结构的体素的图像体积中的子体积。因此，3D定位器110可以包括代表3D定位器模型的第二经过训练的深度神经网络，其用于精确地确定VOI在包括需要诊断的病理的解剖结构的图像体积中的位置。在实施例中，VOI可以是包含3D图像数据(体素)的3D边界框。VOI中包含的3D图像数据随后被用作训练病理模型的3D深度神经网络的3D图像数据。

因此，3D定位器通过将训练集的3D图像数据的量基本上减小到与训练过程有关的3D图像数据对训练集的3D图像数据进行预处理。因此，3D定位器基本上改善3D深度学习网络114的训练时间。此外，通过去除不相关的数据，可以减少计算的复杂性。3D定位器允许在给定的时间段内进行更多的训练迭代，因此导致能够生成改善的疾病模型的经过训练的深度学习网络。考虑到训练时间可以增长到一周或更长时间，因此这种定位提供大量的益处。

如图1所示，3D定位器训练模块115可以被配置为：基于包括训练集的3D图像数据中的VOI的位置的3D定位器模型122，单独地训练3D定位器110的深度神经网络。这些VOI可以源自于3D图像数据的注释训练数据集116。可以在注释训练集的切片中确定ROI 118，并且可以使用ROI确定3D边界框，其中，3D边界框120可以代表VOI，其中，每个VOI可以与图像体积中的位置相关。这些位置可以在用于定义图像体积中的3D位置x,y,z的合适的坐标系中表示。这些位置可以用作训练期间的目标标签。注释数据集可以选自于用于训练病理模型的3D深度神经网络的训练数据集104。

在一些实施例(未示出)中，训练数据可以包括至少第一组3D图像数据(与图像体积中的第一图像平面相关的图像的第一序列)和相关的第二组3D图像数据(与图像平面中的第二图像平面相关的图像的第二序列)。可以使用不同的成像平面(例如图像体积的冠状平面和矢状平面)来生成解剖对象的诸如3D MRI或CT图像的3D图像。不同图像平面的3D图像数据的组合使用能够实现精确的3D图像数据重建。在这种情况下，使用已知的坐标映射将第一3D图像数据集的3D图像数据的体素的位置连接到第二3D图像数据集的体素的位置。

在实施例中，可以训练3D定位器的深度神经网络以处理图像的序列中的一个，例如第一3D图像数据集。3D定位器的经过训练的深度神经网络的目标，即，第一3D图像数据的体积中的第一VOI的第一位置。然后，可以将第一3D图像数据与第二3D图像数据之间的坐标映射用于确定第二3D图像数据的体积中的对应的第二VOI的第二位置。

图2示意性地描绘根据本发明的实施例的3D定位器训练模块。特别地，图2描绘3D定位器训练模块的示例，所述3D定位器训练模块被构造为执行用于训练3D深度神经网络212的训练过程，使得其是根据期望的定位器模型214的函数，所述定位器模型214生成包含特定病理的体素作为其目标的VOI的3D位置(例如，根据与3D图像体积相关的坐标系的坐标x,y,z)。

训练过程可以包括选择3D图像数据的训练数据集204(例如，诸如MRI图像的医学图像的序列)的步骤，以用于训练3D定位器的深度神经网络。所选的训练数据集可以显著地小于训练病理模型的3D深度神经网络所需的集合。

定位器训练模块202可以包括注释工具206(例如软件应用)，所述注释工具被配置为显示训练数据集的图像(切片)的序列，并且通过确定每个切片(例如平面封闭的多边形)中的2D感兴趣的区域(ROI)来注释每个切片，所述区域包含作为诊断对象的预定解剖结构。在实施例中，2D ROI的确定可以包括注释器208控制绘图工具，其允许在其中定位有预定的解剖结构的图像中确定区域(ROI)的边界。

图3描绘包括在半月板周围的感兴趣的区域的注释区域302的膝盖的图像体积的切片的示例。注释ROI说明切片的大部分图像数据与训练深度神经网络无关。因此，基于VOI中包含的3D图像数据(体素)训练3D深度神经网络将显著地改善系统的性能。

在实施例中，图2的3D定位器训练模块可以包括处理器210，所述处理器210适于基于包括注释2D ROI的图像的序列来计算3D边界框的中心位置，其中，3D边界框代表包含训练数据集中的解剖结构的3D图像数据的VOI。可以对多组注释图像重复此过程，使得生成用于多组训练数据的多个边界框。

提取器模块211可以被配置为使用3D边界框的计算位置从用于确定3D边界框的3D图像数据204的训练数据集中提取VOI的3D图像数据(体素)。此后，可以使用包含在确定的3D边界框中的3D图像数据作为输入并使用确定的边界框中心(它们的坐标)作为目标，训练深度神经网络212。可以使用预测的3D边界框中心(深度神经网络的输出)和3D边界框的实际中心之间的距离作为反向传播直到收敛过程的损失函数，训练深度神经网络。

因此，由图1中的定位器训练器模块115执行的训练过程可以导致在将训练数据馈送到3D深度学习网络的输入之前对训练数据进行预处理的3D定位器110。3D定位器包括第二经过训练的深度神经网络，其生成被提供到3D定位器的输入的3D图像数据训练集(例如，诸如MRI图像的医学图像的序列)的体积中的VOI的中心的坐标。基于VOI的中心，3D定位器可以确定包含在VOI中的3D图像数据112，并因此将确定的3D图像数据存储在系统的存储器中。在实施例中，如参照图2所述，VOI的尺寸可以被计算为针对训练集确定的3D边界框的尺寸的百分位数，例如95％。

如上所述，训练集包括3D图像数据112以及诸如报告(的相关部分)的计算机可读文本数据的其他数据，其包括关于由例如医生的专家基于3D图像训练数据诊断的病理的信息。因此，可以使用包含在VOI中的3D图像训练数据和可以指示3D图像数据中是否存在特定病理的目标标签值来训练3D深度神经网络。

为了生成用于训练数据的目标标签值，标签提取器模块126可以基于报告的文本确定目标标签值，并针对每个VOI存储目标标签128。因此，为了创建计算机可读目标标签值，标签提取模块126检查作为训练数据的一部分的报告的内容，将报告转换为代码(二进制或多值)。

在实施例中，标签提取器模块可以对报告的短语和/或词使用自然语言处理方法，使得存在或不存在这样的短语和/或词可以导致目标标签的特定值或特定值范围。例如，标签提取器模块可以寻找特定词(例如“大纵向半月板撕裂”、“小纵向半月板撕裂”、“无半月板撕裂”等)的存在或不存在，并且基于存在或不存在这样的词来确定得分。

在实施例中，可以创建决策树，所述决策树描述一个或更多个短语和/或词的存在或不存在如何确定目标标签值，以及可选地在什么条件下不能确定目标标签。决策树可以在软件应用程序中编程，其可以被配置为处理完整的报告集。为了确定标签的精确性，可以对报告集的子集执行手动验证。

用于病理模型的3D深度神经网络可以基于如由3D定位器提供的VOI的体素和相关的目标标签值来训练。

通用标识符可以用于将VOI的体素与医学报告和目标标签值连接。取决于特定的解剖和病理，一个VOI的多个系列(例如第一和第二系列)可用作训练的输入，并且一个目标标签值用作输出。

如果3D图像训练数据包括多个系列，则可以基于VOI的多个系列中的一个(例如第一系列)来确定VOI的位置。因此，可以通过将第一系列的VOI的坐标映射到第二系列上来定位第二系列(即，3D定位器未使用的3D图像数据)中的VOI的位置。3D深度神经网络的体系结构可以是包括多个层的全3D卷积神经网络(CNN)。可以使用已知的深度学习框架来实现深度神经网络。

深度神经网络的训练可以包括针对训练集的每个系列的VOI的提取和针对训练集的每个研究的目标标签的提取。此后，可以将训练集分为另一个训练集和一个验证集，其中，可以使用所述另一个训练集，以通过对目标标签使用适当的损失函数来训练神经网络。迭代地训练网络，直到验证集的损失收敛为止。

在训练过程之后，获得了代表病理模型的经过训练的3D深度神经网络，所述3D深度神经网络能够：1)在其输入处接收VOI的3D图像数据，其中，3D图像数据包括用于诊断的预定解剖结构；2)生成目标标签，即，计算机生成的词和/或短语的序列，例如以文本字符串的形式，指示至少部分解剖结构的确定病理。

可以针对不同的病理模型训练计算机辅助诊断系统。例如，可以针对适于检测膝盖的MRI图像中的半月板撕裂的病理模型来训练3D深度神经网络，其中，目标标签可以包括代表不同目标标签的不同值，例如分别对于内侧和外侧撕裂的两个(二进制)值。

参照图1-3描述的系统被训练了22,000个医学图像，即，MRI图像的序列。基于训练，在5,500个图像的测试集上获得以下性能：

图4示意性地描绘用于本公开中描述的方法和系统中的深度神经网络体系结构。在实施例中，深度神经网络可以使用3D卷积神经网络(CNN)来实现，并且被训练为3D定位器，如上面参照图1-3所述。所述网络可以包括噪声层404，所述噪声层404向提供到输入层402的3D输入数据添加失真。另外，不使用最大池化层。噪声层可以改善模型的通用性。网络可以包括多个3D卷积层406、408，随后是最后的Softmax层410。

卷积层可以使用指数线性单元(ELU)激活函数。网络的目标是具有均方误差(MSE)损失的(X,Y,Z)坐标元组。层数的微小变化及层的定义(例如，如RELU的不同的激活函数和如滤除层(dropout layer)的附加正则化的使用)可以用于卷积神经网络的实现中，而不会失去深度神经网络的基本功能。可以在训练期间使用滤除层，以减少过度拟合的问题，从而增加网络对新数据(即，网络以前从未见过的数据)的通用性。

图5示意性地描绘用于本公开中描述的方法和系统的另一深度神经网络体系结构。在实施例中，可以使用3D卷积神经网络(CNN)来实现深度神经网络，并且可以将深度神经网络训练为3D深度神经网络，所述3D深度神经网络适于当成像解剖结构的VOI的3D图像数据被提供到网络的输入时生成指示特定病理的目标标签。如图5所示，神经网络可以包括两个路径，由第一组3D卷积层定义的第一路径502，所述第一组3D卷积层被设计为接收从第一组3D图像数据导出的VOI的第一体素(例如，与例如矢状图像平面的第一图像平面相关的图像的第一序列)；由第二组3D卷积层定义的第二路径504，所述第二组3D卷积层被设计为接收从第二组3D图像数据导出的VOI的第二体素(例如，与例如冠状图像平面的第二图像平面相关的图像的第二序列)。

第一深度神经网络和第二深度神经网络可以具有相似的体系结构，包括多个连接层，所述多个连接层包括输入层508、一个或更多个噪声层510和多个3D卷积层512_1-n。此外，一个或更多个滤除层514可以插入在3D卷积层之间。第一深度神经网络和第二深度神经网络的输出可以输入到第三深度神经网络506，所述第三深度神经网络506在其输入处接收第一深度神经网络和第二深度神经网络的输出。第三深度神经网络可以包括由滤除层516、520、526分开的多个3D卷积层518、522。此外，第三深度神经网络的最后层可以包括一个或更多个稠密层(dense layer)524、528，即，用于分类病理的完全连接的层。

图6和7示意性地描绘用于训练深度学习网络系统作为3D定位器的方法和包括这样的经过训练的深度学习网络的3D定位器模块。

图6示意性地描绘根据本发明的实施例的训练3D深度神经网络(优选地，第一3D卷积神经网络(CNN))用于形成3D定位器模型的计算机实现的方法。这样的3D定位器可以包括经过训练的3D深度神经网络，所述3D深度神经网络适于接收解剖结构的3D图像数据(例如体素)作为输入，其中，3D图像数据与特定体积相关，所述特定体积可以称为图像体积。经过训练的CNN可以生成包含需要诊断的解剖结构的一部分的3D图像数据的VOI(即，图像体积的子体积)的目标位置。

所述方法可以包括以下步骤：计算机接收3D图像数据训练集，其中，3D图像数据可以包括2D医学图像的序列(步骤602)，以及在医学图像的序列的每个图像中确定2D感兴趣的区域(ROI)(步骤604)。这里，ROI可以是特定形状(例如，矩形)的2D封闭轮廓，使得ROI包围像素的预定2D区域。此后，计算机的处理器可以基于ROI构建3D边界框，其中，3D边界框的外表面定义训练集的3D图像数据的图像体积内的感兴趣的体积(VOI)(步骤606)。图像体积内的VOI的位置可以用于确定包含在VOI中并与需要诊断的解剖结构有关的3D图像数据(体素)(步骤608)。VOI的3D图像数据形成3D图像训练数据集的3D图像数据的子集。

然后，将VOI的3D图像数据用作输入数据，用于训练第一深度神经网络，其中将VOI的位置(例如图像体积内的坐标)用作目标(步骤610)。这样，经过训练的第一深度神经网络可以适于接收解剖结构(例如膝关节)的3D图像数据，并生成包括需要诊断的解剖结构(例如半月板)的一部分的VOI的目标位置。因此，经过训练的第一深度神经网络定位了体素的特定体积，其可以用于有效地训练另一第二深度神经网络。经过训练的第一深度神经网络能够处理历史图像并在其中定位VOI。

图7描绘根据本发明的实施例的包括经过训练的深度学习网络的3D定位器模块。特别地，该图示出3D定位器模块702，其用于根据如参照图6描述的过程在3D图像数据中定位感兴趣的体积(VOI)。模块可以被实现为计算机上的代码并且通过处理器执行。模块可以被布置为接收第一组3D图像数据，例如与第一图像平面(例如矢状图像平面)相关的第一组MRI图像704，以及接收相关的第二组3D图像数据，例如与第二图像平面(例如冠状图像平面)相关的第二组MRI图像704。可以将第一组3D图像数据提供到形成3D定位器706的深度神经网络的输入，所述深度神经网络根据如参照图6描述的过程进行训练。3D定位器生成VOI位置707，所述VOI位置可以被计算机中的处理器使用以确定3D边界框，VOI。VOI提取器可以使用第一系列的3D图像数据和3D边界框以提取包含在边界框中的体素。类似地，模块可以将第二系列的3D图像数据的坐标映射到第一系列的坐标上。此后，其可以使用计算的3D边界框以提取包含在边界框中的体素。这样，确定代表VOI的体素集716。

图8示意性地描绘训练3D深度神经网络(优选地，3D卷积神经网络(CNN))的计算机实现的方法，用于基于训练集形成病理模型。训练集可以包括多个医学研究的训练数据，其中，每个医学研究包括呈医学图像的一个或更多个序列的形式的3D图像数据(体素)以及与3D图像数据相关的至少一个医学报告的计算机可读文本和/或短语。这里，一个医学研究的3D图像数据可以包括：第一3D图像数据，包括第一医学图像的序列；相关的第二3D图像数据，包括第二医学图像的序列。一个医学研究的训练数据，例如3D图像数据和相关的计算机可读文本和/或短语，可以存储在数据库中。通用标识符可以用于将3D图像数据连接到与医学报告相关的数据。

在第一步骤中，可以将训练集的3D图像数据归一化为归一化的3D图像数据(步骤802)。可以将每个医学研究的归一化的3D图像数据提供到第一经过训练的神经网络的输入，所述第一经过训练的神经网络适于对于每个医学研究生成归一化的3D图像数据的体积内的VOI的目标位置(步骤804)。在实施例中，仅归一化的第一3D图像数据可以用于生成VOI的目标位置。在这种情况下，第一3D图像数据与第二3D图像数据之间的已知的坐标映射可以用于确定第二3D图像数据中的VOI的目标位置。

然后，可以将VOI的目标位置用于选择位于VOI内的3D图像数据的图像体积中的体素(步骤806)。此外，为了产生VOI的体素的目标标签值，可以将自然语言处理方法用于处理每个医学报告的计算机可读文本和/或短语(步骤808)。此后，然后将VOI体素的集合和相关的目标标签值用作输入数据，用于利用作为目标的目标标签值训练第二神经网络(步骤810)。

图9示意性地描绘根据本发明的实施例的用于使用3D深度神经网络的计算机辅助诊断的计算机系统。该图代表计算机系统902，所述计算机系统包括根据参照图1-8描述的过程训练的深度神经网络。

计算机系统可以以推断模式执行，其中，计算机系统包括3D定位器模块903，其包括3D定位器912，3D定位器912包括用于确定被提供到计算机系统的输入的3D图像906(例如，诸如MRI或CT图像的医学图像的序列)中的VOI的位置的3D深度神经网络。可以根据如参照图6描述的过程训练该3D深度神经网络。

使用存储在数据库912中的转换模块908对3D图像进行转换和归一化。为了在3D图像的图像体积中确定包含在感兴趣的区域(VOI)内的体素，可以将归一化的3D图像数据(体素)提供到3D定位器。可以将包含在VOI内的体素存储在数据库914中并将其提供到3D深度神经网络916的输入，可以根据如参照图8描述的过程训练所述3D深度神经网络。

经过训练的3D深度神经网络916的输出可以是一个或更多个目标标签，每个目标标签与目标标签值相关。报告模块918可以使用目标标签来生成计算机生成的报告922。目标标签值可以报告是否已经确定了特定病理。例如，如果目标标签值在预定的第一范围内，则计算机可以确定检测到病理。在这种情况下，计算机可以生成第一文本字符串，所述第一文本字符串描述了特定病理(例如半月板撕裂)已经被确定。替代地，如果目标标签值在预定的第二范围内，则计算机可以确定尚未确定病理。在这种情况下，计算机可以生成第二文本字符串，所述第二文本字符串描述了特定病理(例如半月板撕裂)未被确定。报告模块可以使用报告模板和文本字符串来生成计算机生成的报告。报告模块可以被配置为将计算机生成的文本插入报告模板中，所述报告模板还可以包括其他数据，例如，患者数据和与医生相关的数据。报告可以包括与诊断相关的文本。

此外，报告可以包括一个或更多个图像，优选地注释图像，例如计算机生成的注释3D图像的切片。可视化可以用于解释为什么模型决定目标标签具有其预测值。病理学的这种3D可视化作为对解释模型结果的医生的反馈非常有价值。视觉反馈可以基于可用于向VOI中的体素提供颜色/强度指示的3D显著性图来确定，其中，颜色/强度指示向医生提供VOI中的每个体素对目标标签的贡献如何相关的信息。

3D显著性图可以由处理器生成，所述处理器使用适合于用于3D数据集的修改的引导反向传播过程进行适配。用于2D数据集的引导反向传播的常规过程在以下文章中描述：Springenberg et al.,“Striving for simplicity:the all convolutional net”,3rdInternational Conference on Learning Representations,ICLR 2015。文章中描述的引导反向传播过程用于可视化由2D卷积网络的较高层学习的表示形式。为了确定哪些像素对分类最显著，该方法使用倒数第二个网络层的输出(在softmax分类器之前)作为反向传播步骤的输入。

图9中的计算机系统的处理器使用引导反向传播过程来生成3D显著性图。在引导反向传播过程中，在权重参数固定的情况下，计算了网络预测(在输出处)相对于输入的梯度。因此，可以将3D概率图917用作反向传播过程的输入。当与由第一神经网络确定的VOI相关的3D图像数据(即，体素)沿正向方向传播通过经过训练的3D深度神经网络916时，形成3D概率图。

可以从位于全连接分类层(“稠密”层之一)之前的3D卷积层中提取与3D图像数据集相关的3D概率图。该3D概率图可以用作反向传播过程的输入。因此，在如图9所描绘的系统中，处理器不将目标标签用于反向传播过程的输入。相反，它使用阳性结果的预测概率，例如，存在于如图5所描绘的深度神经网络系统的最后3D卷积层(或最后3D卷积层之一)(例如位于(稠密)全连接层524、528之前的3D卷积层522₁或522₂)中的3D图像的3D概率图。

在确定每个体素对阳性结果的贡献量时，仅使用引导反向传播过程的输出的阳性部分，即max(output,0)。引导反向传播过程的输出包括3D显著性图，所述3D显著性图可以用于例如通过对体素施加特定强度来识别VOI中的体素。强度可以与在反向传播期间确定的显著性值成比例，其中，假定对于代表病理的体素来讲显著性值最高。这样，为了可视化3D图像数据中的体素，可以将显著性图与3D图像数据组合，所述体素在目标标签的结果中有重要贡献。因此，计算机注释的3D图像可以被存储在存储介质924上。

图10描绘根据本发明的实施例的使用用于计算机辅助诊断的系统生成的报告的示例。如该图所示，报告1002包括计算机生成的文本字符串，其解释了神经网络的发现，例如纵向半月板撕裂1004和关于韧带等的其他信息1006。此外，报告可以包括一个或更多个图像，例如注释的3D图像数据的切片，其指示VOI 1008中的体素对目标标签(特别是与阳性结果相关的目标标签)有重要贡献。

图11描绘根据本发明的实施例的由用于计算机辅助诊断的系统生成的VOI的切片的注释图像的示例。显著性显示为深浅不一的颜色，其中最高显著性具有最亮的值。在此示例中，显示了完整3D显著性图的2D切片。如插图示意性所示，虚线表示骨结构的轮廓，实线表示由引导反向传播过程识别的体素组，以为目标标签提供高或至少重要的贡献，在这种情况下，如图10的报告中所报告的，阳性发现为纵向半月板撕裂。

图12是示出本公开中描述的示例性数据处理系统的框图。数据处理系统1200可以包括通过系统总线1206耦接到存储器元件1204的至少一个处理器1202。这样，数据处理系统可以将程序代码存储在存储器元件1204内。此外，处理器1202可以执行经由系统总线1206从存储器元件1204访问的程序代码。在一方面，数据处理系统可以被实现为适合于用于存储和/或执行程序代码的计算机。然而，应当理解，数据处理系统1200可以以包括能够执行本说明书内描述的功能的处理器和存储器的任何系统的形式来实现。

存储器元件1204可以包括一个或更多个物理存储器装置，诸如例如本地存储器1208和一个或更多个大容量存储装置1210。本地存储器可以是指随机存取存储器或在程序代码的实际执行期间通常使用的其他非持久性存储器装置。大容量存储装置可以被实现为硬盘驱动器或其他持久性数据存储装置。处理系统1200还可以包括一个或更多个高速缓冲存储器(未示出)，其提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储装置1210中检索程序代码的次数。

描绘为输入装置1212和输出装置1214的输入/输出(I/O)装置可以可选地耦接到数据处理系统。输入装置的示例可以包括但不限于例如键盘、诸如鼠标的定点装置等。输出装置的示例可以包括但不限于例如监视器或显示器、扬声器等。输入装置和/或输出装置可以直接或通过中间I/O控制器耦接到数据处理系统。网络适配器1216也可以耦接到数据处理系统，以使其能够通过中间专用或公共网络耦接到其他系统、计算机系统、远程网络装置和/或远程存储装置。网络适配器可以包括：数据接收器，用于接收由所述系统、装置和/或网络传输到所述数据的数据；以及数据传输器，用于将数据传输到所述系统、装置和/或网络。调制解调器、电缆调制解调器和以太网卡是可以与数据处理系统1250一起使用的不同类型的网络适配器的示例。

如图12所示，存储器元件1204可以存储应用程序1218。应当理解，数据处理系统1200还可以执行可以促进应用程序的执行的操作系统(未示出)。以可执行程序代码的形式实现的应用可以由数据处理系统1200执行，例如由处理器1202执行。响应于执行应用程序，数据处理系统可以被配置为执行本文将进一步详细描述的一个或更多个操作。

在一方面，例如，数据处理系统1200可以代表客户端数据处理系统。在这种情况下，应用程序1218可以代表客户端应用程序，当执行所述客户端应用程序时，配置数据处理系统1200以执行本文中参照“客户端”描述的各种功能。客户端的示例可以包括但不限于个人计算机、便携式计算机、移动电话等。

在另一方面，数据处理系统可以代表服务器。例如，数据处理系统可以代表(HTTP)服务器，在这种情况下，当被执行时，应用程序1218可以配置数据处理系统以执行(HTTP)服务器操作。在另一方面，数据处理系统可以代表本说明书中所指的模块、单元或功能。

本文所使用的术语仅出于描述特定实施例的目的，而无意于限制本发明。如本文所使用的，单数形式“一”、“一个(种)”和“该(所述)”也意图包括复数形式，除非上下文另外明确指出。将进一步理解的是，当在本说明书中使用术语“包括”和/或“包含”时，指明存在所述特征、整体、步骤、操作、元件和/或组件，但并不排除存在或附加一个或更多个其他特征、整体、步骤、操作、元件、组件和/或其组。

以下权利要求中的所有方法或步骤加上功能元件的对应结构、材料、作用和等同物旨在包括用于与具体要求保护的其他要求保护的元件组合地执行功能的任何结构、材料或作用。已经出于说明和描述的目的给出了本发明的描述，但并不意图是穷举的或将本发明限制为所公开的形式。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员而言将是明显的。选择并描述实施例是为了最好地解释本发明的原理和实际应用，并使本领域的其他普通技术人员能够理解本发明的各种实施例以及适合于预期的特定用途的各种修改。

Claims

1.一种用于确定3D图像数据中的病理的计算机实现的方法，包括：

接收身体部位的至少第一3D图像，3D图像包括与预定图像体积相关的体素；

将所述第一3D图像提供到第一3D卷积神经网络的输入，所述第一3D卷积网络被训练以确定感兴趣的体积VOI在所述第一3D图像的图像体积中的位置，所述VOI与所述身体部位的部分相关，所述VOI定义所述图像体积的子体积；

从所述第一3D卷积神经网络的输出接收所述VOI的位置，并且通过选择所述第一3D图像的具有在所述VOI内的位置的体素确定第一VOI体素；

将所述第一VOI体素提供到第二3D卷积神经网络的输入，所述第二3D卷积神经网络被训练以基于至少所述第一VOI体素确定目标标签值，所述目标标签值指示在所述VOI中存在或不存在所述病理；以及

从所述第二3D卷积神经网络的输出接收与所述第一VOI相关的所述目标标签值，并通过将所述目标标签值与代表所述病理的描述的文本和/或句子进行关联来生成医学报告，优选地，所述医学报告的生成包括：如果所述目标标签值在预定第一范围内，则确定描述所述病理已经被检测到的第一文本字符串；如果目标标签值在预定第二范围内，则确定描述所述病理没有被检测到的第二文本字符串；以及可选地，将所述第一文本字符串或所述第二文本字符串插入代表报告模板的文本字符串中。

2.根据权利要求1所述的方法，其中，所述方法还包括：

从所述第二3D卷积神经网络的卷积层获取与VOI体素相关的3D概率图，并且使用所述3D概率图作为反向传播过程的输入，以生成与所述VOI体素相关的3D显著性图；

通过使用所述3D显著性图识别所述VOI中的对由所述第二3D卷积神经网络确定所述目标标签值做出显著贡献的体素，来生成所述VOI中的所述病理的注释3D图像。

3.根据权利要求2所述的方法，还包括：

在报告中插入所述注释3D图像或者所述注释3D图像的一个或更多个2D切片。

4.根据权利要求1-3中的任一项所述的方法，其中，所述第一3D图像包括第一图像平面的图像的序列，优选地包括矢状图像平面的图像的序列，所述方法还包括：

接收所述身体部位的第二3D图像，所述第二3D图像包括第二图像平面的图像的序列，优选地包括冠状图像平面的图像的序列；

通过选择所述第二3D图像的具有所述VOI内的位置的体素来确定第二VOI体素；

基于所述第一VOI体素和所述第二VOI体素，所述第二3D卷积神经网络确定目标标签值。

5.根据权利要求4所述的方法，其中，所述第二3D卷积神经网络至少包括第一多个3D卷积神经网络层和第二多个3D卷积神经网络层，所述第一多个3D卷积神经网络层通过所述神经网络形成第一路径，所述第二多个3D卷积神经网络层通过所述第二神经网络形成第二路径，所述第一多个3D卷积神经网络层被配置为处理所述第一VOI体素，所述第二多个3D卷积神经网络层被配置为处理所述第二VOI体素。

6.根据权利要求1-6中的任一项所述的方法，其中，所述第一3D卷积神经网络和/或所述第二3D卷积神经网络包括一个或更多个噪声层。

7.一种用于训练系统中的一个或更多个3D深度神经网络的计算机实现的方法，所述系统被配置为确定3D图像数据中的身体部位的病理，所述方法包括：

计算机接收医学研究的3D图像数据训练集，所述3D图像数据训练集包括身体部位的3D图像，3D图像包括与预定图像体积相关的体素并与医学报告相关，所述医学报告包括指示在所述3D图像中存在或不存在所述病理的计算机可读文本部分和/或句子；

对于所述3D图像训练数据的每个3D图像，形成3D边界框，优选地，所述3D边界框基于所述3D图像的切片中的2D感兴趣的区域ROI形成，所述3D边界框形成所述3D图像的图像体积中的子体积，所述子体积定义感兴趣的体积VOI，所述VOI包括所述身体部位的可包括病理的部分；

对于所述3D图像训练数据的每个3D图像，确定所述VOI在所述图像体积中的位置，并且确定位于所述VOI中的体素；以及

使用每个VOI的体素作为输入并使用VOI的位置作为目标训练第一3D卷积神经网络。

8.根据权利要求7所述的方法，还包括：

对于所述3D图像训练数据的每个3D图像，处理与所述VOI相关的所述医学报告的计算机可读文本和/或短语以产生目标标签值，所述目标标签值指示在所述VOI中存在或不存在所述身体部位的所述病理；

使用所述VOI的体素作为输入并使用与所述VOI相关的所述目标标签值作为目标训练第二3D卷积神经网络。

9.根据权利要求8所述的方法，其中，处理计算机可读文本和/或短语包括：

使用决策树来描述所述医学报告的所述计算机可读文本部分和/或句子中的一个或更多个短语和/或词的存在或不存在如何确定所述目标标签值。

10.一种在计算机上实现的神经网络系统，所述系统至少包括一个或更多个3D深度神经网络，优选地至少包括一个或更多个3D卷积神经网络，其中，所述一个或更多个深度神经网络根据权利要求7-9所述的方法来训练。

11.一种适于确定3D图像数据中的病理的计算机系统，包括：

存储介质，其中存储有计算机可读程序代码，所述计算机可读程序代码包括第一3D卷积神经网络和第二3D卷积神经网络；以及

耦接到计算机可读存储介质的一个或更多个处理器，优选地是耦接到计算机可读存储介质的一个或更多个微处理器，其中，在执行所述计算机可读程序代码时，所述计算机系统执行包括以下的操作：

将所述第一3D图像提供到所述第一3D卷积神经网络的输入，所述第一3D卷积网络被训练以确定感兴趣的体积VOI在所述第一3D图像的图像体积中的位置，所述VOI与所述身体部位的一部分相关，所述VOI定义所述图像体积的子体积；

将所述第一VOI体素提供到所述第二3D卷积神经网络的输入，所述第二3D卷积神经网络被训练以基于至少所述第一VOI体素确定目标标签值，所述目标标签值指示在所述VOI中存在或不存在所述病理；以及

从所述第二3D卷积神经网络的输出接收与所述第一VOI相关的所述目标标签值，并通过将所述目标标签值与代表所述病理的描述的文本和/或句子进行关联来生成医学报告，优选地，所述医学报告的生成包括：如果所述目标标签值在预定第一范围内，则确定描述所述病理已经被检测到的第一文本字符串；如果所述目标标签值在预定第二范围内，则确定描述所述病理没有被检测到的第二文本字符串；以及可选地，将所述第一文本字符串或所述第二文本字符串插入代表报告模板的文本字符串中。

12.根据权利要求11所述的计算机系统，其中，所述操作还包括：

从所述第二卷积神经网络的卷积层获取与VOI体素相关的3D概率图，并且使用所述3D概率图作为反向传播过程的输入，以生成与所述VOI体素相关的3D显著性图；

13.根据权利要求12所述的计算机系统，其中，所述操作还包括：

14.根据权利要求11-13中的任一项所述的计算机系统，其中，所述第一3D图像包括第一图像平面的图像的序列，优选地包括矢状图像平面的图像的序列，其中，所述操作还包括：

通过选择所述第二3D图像的具有所述VOI内的位置的体素确定第二VOI体素；

15.根据权利要求14所述的计算机系统，其中，所述第二3D卷积神经网络至少包括第一多个3D卷积神经网络层和第二多个3D卷积神经网络层，所述第一多个3D卷积神经网络层通过所述神经网络形成第一路径，所述第二多个3D卷积神经网络层通过所述第二神经网络形成第二路径，所述第一多个3D卷积神经网络层被配置为处理所述第一VOI体素，所述第二多个3D卷积神经网络层被配置为处理所述第二VOI体素。

16.一种包括软件代码部分的计算机程序产品，所述软件代码部分被配置为当在计算机的存储器中运行时，执行根据权利要求1-6或权利要求7-9中的任一项所述的方法步骤。