CN115004223A

CN115004223A - 用于在医学图像中自动检测解剖结构的方法和系统

Info

Publication number: CN115004223A
Application number: CN202180010029.6A
Authority: CN
Inventors: S·博沃米克; S·塞特; K·克里希南; C·菲尔雄; P·瓦集内帕里
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2020-01-16
Filing date: 2021-01-12
Publication date: 2022-09-02
Also published as: WO2021144230A1; US20230038364A1; EP3852054A1; JP2023511300A; EP4091133A1

Abstract

本发明涉及一种用于在对象的医学图像(1)中自动检测解剖结构(3)的计算机实施的方法，所述方法包括将目标检测器函数(4)应用于所述医学图像，其中，所述目标检测器函数执行以下步骤：(A)将第一神经网络(40)应用于所述医学图像，其中，所述第一神经网络被训练为检测第一多种类型的较大尺寸的解剖结构(3a)，从而生成至少一个第一边界框(51)的坐标以及所述至少一个第一边界框包含较大尺寸的解剖结构的置信度得分作为输出；(B)将所述医学图像剪裁(42)到所述第一边界框，从而生成包含所述第一边界框(51)内的图像内容的剪裁图像(11)；并且(C)将第二神经网络(44)应用于所剪裁的医学图像，其中，所述第二神经网络被训练为检测至少一个第二类型的较小尺寸的解剖结构(3b)，从而生成至少一个第二边界框(54)的坐标以及所述至少一个第二边界框包含较小尺寸的解剖结构的置信度得分作为输出。

Description

用于在医学图像中自动检测解剖结构的方法和系统

技术领域

本发明涉及用于在对象的医学图像中自动检测解剖结构的计算机实施的方法、用于训练在医学图像中检测多种类型的解剖结构的过程中有用的目标检测器函数的方法，以及相关的计算机程序和系统。

背景技术

诸如X射线、计算机断层摄影(CT)、磁共振成像(MRI)、正电子发射断层摄影(PET)以及超声成像模态之类的医学成像已经变得广泛可用并且经常用于诊断和其他医学用途。然而，例如由于各种伪影、噪声和其他图像不准确性来源，对医学图像的解读仍然具有挑战性。特别地，已知对超声图像的解读具有很高的用户内变化和用户间变化，即使在诸如放射科医生、经过认证的超声医师等专家中也会出现这种情况。由于超声常常是在紧急医疗事件的背景中由实习医生或急诊室医生执行的，因此这会加剧上述情况。因此，在检测和识别解剖结构和/或根据医学图像确定预定义的医学状况的概率的过程中需要得到计算机实施的辅助。

希望得到这种计算机实施的辅助的一个示例是产前超声筛查，全世界对每一位孕妇都会推荐产前超声筛查。妊娠早期的超声扫描的主要目的是评估妊娠的生存能力并对其计算日期，对胎儿的数量进行计数并且排除异常的妊娠早期妊娠，例如，异位妊娠和流产。在这个早期阶段，妊娠丢失是很常见的，并且异位妊娠是常常未能检测到的至关重要的异常临床发现，并且在全球范围内仍然是孕产妇死亡的重要来源。超声成像在妊娠早期妊娠中早期识别上面提到的临床发现的过程中起着关键作用。然而，即使是专家，观察者间和观察者内的变化率也极大地限制了超声图像的诊断价值。

在过去几年里，深度学习技术在图案识别、目标检测、图像分类以及语义分割方面取得了重大进展。首次尝试应用人工神经网络以在医学图像中对解剖结构进行定位。

Bob D.de Vos、Jelmer M.Wolterink、Pim A.de Jong、Tim Leiner、MaxA.Viergever和Ivana Isgum的文章“ConvNet-Based Localization of Anatomicalstructures in 3D Medical Images”(IEEE Transactions on Medical Imaging，PP.DUI.:10.1109/TMI.2017.2673121，2017年4月19日)提出了用于通过使用卷积神经网络(ConvNet)在2D图像切片中检测一个或多个解剖结构的存在情况来在3D医学图像中自动定位这一个或多个解剖结构的方法。单个ConvNet被训练为检测从3D图像提取的轴向切片、冠状切片和矢状切片中的感兴趣解剖结构的存在情况。为了允许ConvNet分析不同尺寸的切片，应用了空间金字塔池化。在检测之后，通过将所有切片中的ConvNet的输出进行组合来创建3D边界框。空间金字塔池化层的输出特征图被连接到两个完全连接层的序列，这两个完全连接层被连接到2N个终端节点的输出层，其中，N指示目标解剖结构的数量。空间金字塔池化允许分析可变输入尺寸的图像。

WO 2017/1242221 A1公开了用于目标检测的方法，所述方法包括：将要检测的目标类型分组到构成层次树结构的多个目标集群中；获得图像和用于所获得的图像的至少一个边界框；从层次树结构的根集群到叶集群，通过分别针对层次树结构的集群中的每个集群而训练的卷积神经网络对每个边界框中的目标进行评价，以确定目标的最深叶集群；并且输出在所确定的最深叶集群处的目标类型标签，作为目标的预测目标类型标签。

Y.Deng、Y.Wang、P.Chen和J.Yu的文章“A hierarchical model for automaticnuchal translucency detection from ultrasound images”(Computers in Biologyand Medicine 42，2012年，第706-713页)提出了用于自动化检测颈项透明层(NT)区域的算法。当给出超声图像时，首先对胎儿的整个身体进行识别和定位。然后，能够基于身体的知识根据图像来推断胎儿的NT区域和头部。已经建立的图形模型适当表示了NT区域的目标、头部和身体之间的这种因果关系。

CERVANTES ESTEVE等人的文章“Hierarchical part detection with deepneural networks”(2016IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING(ICIP)，IEEE，2016年9月25日(2016-09-25)，第1933-1937页，XP033016808)公开了端到端层次目标和部分检测框架。相应地，使用单个卷积神经网络在输入的图像数据中确定边界框，以便检测目标。另外，在边界框内确定针对目标的每个部分的单个提议。

EP 2911111 A2公开了用于病变检测的装置和方法。所述病变检测方法涉及：从医学图像中检测病变候选物，从医学图像中检测解剖目标，基于包括关于病变候选物与解剖目标之间的位置关系的信息的解剖背景信息来验证病变候选物中的每个病变候选物，并且基于验证结构从检测到的病变候选物中移除一个或多个假阳性病变候选物。

发明内容

本发明的目的是提供可靠的计算机辅助的方法在医学图像中检测和识别解剖结构，这种方法优选以接近实时的速度在商用硬件上工作。本发明的另外的目的是提供计算机辅助的解决方案来以等于或超过人类表现的精确度识别某些解剖结构。例如，希望拥有鲁棒的计算机辅助的解决方案来识别宫内妊娠(IUP)特征及其异常对应物，特别是妊娠丢失和异位妊娠，从而改进OBGYN工作流程(对IUP及其胎龄的诊断)。

这些目的通过以下方面得到满足或被超越：根据权利要求1所述的用于在对象的医学图像中自动检测解剖结构的计算机辅助的方法、根据权利要求11所述的用于训练在检测多种类型的解剖结构的过程中有用的目标检测器函数的方法、根据权利要求14所述的计算机程序，以及根据权利要求15所述的系统。在从属权利要求中阐述了有利实施例。本文描述的关于请求保护的方法的任何特征、优点或替代实施例也适用于本发明的其他类型的权利要求和方面，特别是训练方法、请求保护的系统和计算机程序，并且反之亦然。特别地，能够通过请求保护的方法来提供或改进目标检测器函数和神经网络。此外，针对目标检测器函数的输入/输出数据能够包括输入/输出训练数据的有利特征和实施例，并且反之亦然。

根据第一方面，本发明提供了一种用于在对象的医学图像中自动检测解剖结构的计算机实施的方法，所述方法包括以下步骤：

a)接收所述对象的视场的至少一幅医学图像；

b)将目标检测器函数应用于所述医学图像，其中，所述目标检测器函数被训练为检测多种类型的解剖结构，从而生成多个边界框的坐标以及针对每个边界框的置信度得分作为输出，所述置信度得分给出所述边界框包含属于所述多种类型中的一种类型的解剖结构的概率；

其特征在于，所述目标检测器函数执行以下步骤：

将第一神经网络应用于所述医学图像，其中，所述第一神经网络被训练为检测第一多种类型的较大尺寸的解剖结构，从而生成至少一个第一边界框的坐标以及所述至少一个第一边界框包含较大尺寸的解剖结构的置信度得分作为输出；

将所述医学图像剪裁到所述第一边界框，从而生成包含所述第一边界框内的图像内容的剪裁图像；

将第二神经网络应用于所剪裁的医学图像，其中，所述第二神经网络被训练为检测至少一个第二类型的较小尺寸的解剖结构，从而生成至少一个第二边界框的坐标以及所述至少一个第二边界框包含较小尺寸的解剖结构的置信度得分作为输出。

因此，本发明提供了用于在医学图像中自动化检测不同的尺寸或细节尺度的解剖结构的层次解剖识别方案。鉴于某些具有较小尺寸或较低细节尺度的解剖结构(较小尺寸的解剖结构)被预期为在另一具有较大尺寸或较高细节尺度的解剖结构(较大尺寸的解剖结构)内找到，因此本发明有利地将输入医学图像剪裁到包含较大尺寸的解剖结构的边界框，并且使用剪裁图像来搜索较小尺寸的解剖结构。以这种方式，在每个层次级别上(例如在较大尺寸的解剖级别和较小尺寸的解剖级别上)使用的用来检测解剖结构的神经网络要求非常简单的架构，能够被较快地训练，并且更加鲁棒，即，具有较高的平均精度。换句话说，可以在每个层次级别上实施独立且单独的神经网络，因此可以根据层次级别针对特定检测任务来专门训练神经网络。例如，在早期妊娠超声(US)图像中，预期将在妊娠囊中发现卵黄囊。然而，已经发现：卵黄囊(YS)是一种非常微妙的结构，其无法与相对较大的解剖结构一起训练。为了实现更好的检测，可以在剪裁图像上训练专用的第二神经网络，其中，例如妊娠囊(GS)是从原始的输入医学图像中剪裁的。这使得搜索区域不断减小，从而改进了训练和随后的检测。

在实施例中，本发明的计算机实施的方法可以被实施在任何商用硬件上，例如，常规PC、笔记本电脑、平板电脑、云计算机、服务器、并且特别是被实施在用于执行超声扫描的超声系统上。该方法也可以被执行在远程计算机上，即，可以通过超声扫描来采集图像，例如经由互联网或蜂窝连接将该图像上传到远程计算机或服务器上，并且根据本发明来处理该图像。可以经由互联网或蜂窝连接将本发明的结果(例如，至少一个第一边界框和一个第二边界框的坐标以及这些边界框包含某种解剖结构的置信度得分)以及通常还有所述解剖结构的类型传输回超声扫描器或任何其他硬件设备，在超声扫描器或任何其他硬件设备处，能够使用本发明的结果来评估图像。

本发明利用了经训练的人工神经网络(NN)，即，一个接一个地使用的第一神经网络和第二神经网络。也就是说，第一神经网络和第二神经网络可以具有不同的输入和/或不同的输出。以这种方式，已经实施了用于预先确定的解剖结构的层次解剖识别方案，并且该方案在可靠地检测预定义的解剖结构方面显示出出色的结果。因此，能够使诊断方法更加系统化。在妊娠早期妊娠的情况下，本发明可以最终早期改善异常妊娠早期妊娠的临床结果，特别是归因于异位妊娠的检测率的提高。然而，本发明并不仅仅限于早期妊娠的病例，而是也可以应用于许多不同的医学状况和临床应用。

被输入到目标检测器函数的医学图像优选是2D图像。这是因为优选采用的第一神经网络和第二神经网络最适合2D图像处理。然而，可以扩展到3D。所输入的医学图像可以是通过任何医学成像模态(例如，X射线、CT、MRI、PET或超声(例如，B模式超声、彩色多普勒、剪切波弹性成像等))生成的。

在实施例中，该方法应用于一系列医学图像，这一系列医学图像可以是医学图像的时间系列，例如，从正在移动的目标结构(例如，心脏)采集的医学图像的序列。这一系列医学图像也可以是一系列覆盖各种视场的医学图像，例如，可以是在超声扫描期间通过使探头扫掠通过感兴趣区域而获得的一系列医学图像。为了处理许多医学图像，在实施例中，该方法实时或接近实时地(例如以10-60的帧速率，优选为20-40FPS(每秒的帧数/图像数))呈现其结果。

输入医学图像的视场可以覆盖人体或动物体内的任何感兴趣区域，例如，头部或脑部、肢体、肢体的部分或例如胸部、躯干或腹部内的任何器官或器官组，例如，心脏、肺、乳房、肝脏、肾脏、生殖器官、肠道等。“解剖结构”可以是在在这样的视场内可识别的任何解剖特征，例如，前面提到的器官或器官的部分(例如，子宫、妊娠囊、胚胎、直肠子宫陷凹中的液体、卵巢、卵巢囊、特定的骨骼、血管、心脏瓣膜)或异常结构(例如，肿瘤、囊肿、病变、动脉瘤)或植入结构(例如，螺钉、膝盖或肩部植入物、植入的心脏瓣膜)等。在实施例中，目标检测器函数被训练为检测多种预定义的解剖结构，其中，每种类别的解剖结构对应于“类型”(例如“子宫”可以是一个类型，“卵巢”可以是另一类型)。在实施例中，可以在医学图像上区别于其他器官而界定每种预定义的类别/类型的解剖结构，使得放射科医生可以绘制完全包含所述解剖结构的边界框。在实施例中，由目标检测器函数生成的边界框是矩形的，并且优选是轴对齐的，即，矩形的四个侧面与医学图像的四条边缘对齐和/或与其他边界框的侧面对齐。

在实施例中，每幅输入医学图像是正方形2D图像，即，它在宽度方向和高度方向上具有相同数量的像素。出于本发明的目的，如果目标检测器函数是针对指定的图像尺寸(例如，416×416像素)来训练的，则这是有利的。因此，本发明的方法可以包括另外的任选步骤，在该任选步骤中，例如通过已知的插值技术将从成像模态接收的(一幅或多幅)医学图像重新缩放到针对目标检测器函数的指定的输入尺寸。

目标检测器函数包括第一神经网络和第二神经网络，所述第一神经网络被训练为检测较大尺寸的解剖结构，所述第二神经网络被训练为检测较小尺寸的解剖结构。通过较大尺寸的和较小尺寸来意指以下内容：与较大尺寸的解剖结构中的最小结果或平均结果相比，较小尺寸的解剖结构通常(即，在大多数对象中)较小或具有更多和更精细的细节。在实施例中，较小尺寸的解剖结构中的至少一个较小尺寸的解剖结构通常被包含在较大尺寸的解剖结构中的一个较大尺寸的解剖结构内或者是较大尺寸的解剖结构中的一个较大尺寸的解剖结构的部分。在绝对尺寸方面，(一个或多个)较小尺寸的解剖结构的平均直径可能通常小于40mm，优选小于30mm，最优选小于20mm，任选地，最小尺寸在0.2至5mm之间。较大尺寸的解剖结构的平均直径通常可以大于10mm，优选大于20mm，并且最优选大于30mm，任选地，最大尺寸在50至400mm之间。在下表中能够找到针对较大尺寸的结构结构和较小尺寸的解剖结构的匹配集合的示例：

所述目标检测器函数基于较大尺寸的解剖结构与较小尺寸的解剖结构之间的层次关系，其中，所述第一多种类型的较大尺寸的解剖结构中的至少一种较大尺寸的解剖结构(至少在一些医学状况中)被预期包含较小尺寸的解剖结构的类型中的一种或多种类型。例如，在妊娠早期筛查中，较大尺寸的解剖结构的类型可以包括子宫(U)、妊娠囊(GS)和任选的胚胎(E)。较小尺寸的解剖结构的类型可以包括卵黄囊(YS)和任选的胚胎(E)。因此，本发明的方法允许使用基于自动化的深度学习的方法，通过生成边界框，基于对子宫、GS、卵黄囊和胚胎进行定位的边界框的关系来自动化检测IUP(宫内妊娠)。第一级别的自动化(即，第一神经网络)将在子宫内或其他方面定位GS的存在，因为子宫和GS都是第一多种类型的较大尺寸的解剖结构。在下一步骤中，将医学图像剪裁到第一边界框，在示例中，第一边界框是包含妊娠囊的边界框，从而生成了包含在第一边界框内的图像内容的剪裁图像(即，主要仅包含GS的较小图像)。第二级别的自动化(使用第二神经网络)是在剪裁图像内(即，在妊娠囊内)识别胚胎框和卵黄囊框的存在/不存在。边界框的这种层次关系提供了对IUP病例和非IUP病例(例如，异位妊娠)的自动识别。

本发明的方法的输出是边界框和每个边界框包含某种类型的解剖结构的置信度得分。所述输出可以通过以下操作来进行可视化：输出医学图像和/或剪裁图像，并且显示边界框，在边界框上具有最高置信度得分(例如，在形成对比的配色方案中，或者被叠加在图像上)。

本发明的优点是：它允许对解剖结构进行鲁棒的计算机辅助的识别，既能识别包括较大尺寸的解剖结构，又能识别至少一种(通常是多种)类型的较小尺寸的解剖结构，所述较小尺寸的解剖结构可以被包含(也可以不被包含)在较大尺寸的解剖结构中的一个较大尺寸的解剖结构内。通过使用这种两步方法，对较小尺寸的解剖结构的检测和识别明显变得更加精确和鲁棒。在覆盖处于早期妊娠的妇女的子宫的视场的情况下，本发明可以用于使对正常或异常的早期妊娠的诊断更加系统化，特别是对异位妊娠、葡萄胎妊娠或附件特征的诊断。

在实施例中，所述方法包括以下另外的步骤：

c)使用推断方案基于一种或多种类型的解剖结构的存在或不存在和/或基于包含解剖结构的检测到的边界框的相对空间位置来确定所述对象的预定义的医学状况的概率。

预先确定的医学状况可以是能够从存在或不存在以及包含解剖结构的检测到的边界框的相对空间位置推断出的任何临床发现。它通常并不是这样的诊断，而只是某种医学状况的概率，例如可以是在预定义的器官(其可能是较大尺寸的解剖结构)中存在或不存在肿瘤或其他局部异常(其可能是较小尺寸的解剖结构)的概率；

宫内妊娠；

异位妊娠；

妊娠丢失(例如，当在妊娠囊内未发现胚胎或卵黄囊时)。

呈现的概率可以是1或0，但也可以取自这两者之间的值，并且可以取决于用于确定其确定的边界框的置信度得分。例如，推断方案可以包括许多IF ELSE命令，这些IF ELSE命令以任何计算语言被实施在算法中。在妊娠早期妊娠的情况下，推断方案可以例如如下所示：令子宫的边界框被表示为B_u并且令GS的边界框被表示为B_GS。如果B_GS是B_u的子集，则将其推断为正常的IUP，否则将其称为异常妊娠。在使用第二神经网络的第二级别的自动化中，对卵黄囊(YS)和胚胎进行检测和定位。令针对卵黄囊和胚胎的边界框被称为B_YS和B_E。如果B_YS和/或B_E是B_GS的子集，则将其称为正常妊娠。如果在GS内未检测到YS和胚胎，则异常妊娠的机会会增大。例如，医学状况的“增大的”概率可以意指其概率高于预定义的阈值，例如，高于50-95％的范围内的值，优选高于60-90％的范围内的值。

因此，在一些实施例中，如果包含第一类型的解剖结构(例如，所述GS)的第一检测到的边界框涵盖包含第二类型的解剖结构(例如，GS)的第二检测到的边界框，则预定义的医学状况的概率增大。第一解剖结构可以完全涵盖(即，完全包含)第二边界框，或者算法可以允许预定义的交叠量。例如，第二边界框的预定义的百分比(例如，至少80％)必须在第一边界框内部以增大概率。

在其他实施例中，检测到的边界框的相对空间位置可以不仅要求一个边界框是另一边界框的子集，而且还要求在两种或更多种类型的解剖结构的边界框上有条件具有预先确定的尺寸比率范围和/或预先确定的交叠量和/或预先确定的空间关系。

根据实施例，针对在所述对象的同一检查时期期间采集的具有不同视场的多幅二维医学图像迭代地执行所述方法，并且使用针对检测到的边界框的置信度得分来计算最适合用于进一步评价的一幅或多幅医学图像或一个或多个视场。在这种情况下，进一步的评价可以是：具有拥有最高置信度得分的边界框的相应的医学图像由具有技能的用户进一步观察，或者经受进一步的自动图像分析技术，例如，分割、建模、特征检测、距离测量、特征跟踪等。进一步的评价也可以意指使用所识别的视场来从该视场采集进一步的图像，这可能是通过其他成像技术进行的，例如，当到目前为止使用的图像是B模式US图像时，使用多普勒超声。

在另一实施例中，还根据检测到的边界框来确定用于采集进一步的医学图像的另外的2D平面的取向。因此，检测到的边界框以及对应的输入图像可以用于计算最佳平面，这意指例如具有最大置信度得分的那些平面。例如，边界框的加权平均结果和置信度得分已经用于制定置信区间，该置信区间随后用于计算最佳平面。例如，那些捕获某种解剖结构的最大横截面的医学图像用于进一步评价。然后，这些平面/图像以及对应的边界框可以用于对关键参数的自动化计算，例如，在妊娠早期妊娠筛查的示例中，关键参数例如为卵黄囊直径、妊娠囊的平均囊直径、胚胎的头臀长度、异位/异位质量、直肠子宫陷凹中的液体量。因此，本发明还可以用于自动识别标准平面/视场或良好平面/视场，在所述标准平面/视场或良好平面/视场中，可以对解剖结构执行进一步的测量。

根据发明的目标检测器函数可以被提供为软件程序的形式，但也可以被实施为硬件。在实施例中，目标检测器函数的每个检测步骤都是由单个神经网络完成的。在第一步骤中，将单个第一NN应用于完整的医学图像，并且在第二步骤中，将单个第二NN应用于剪裁图像。相应的NN可以将输入图像划分成多个区域，并且针对每个区域预测边界框和概率。这些边界框可以通过所预测的概率进行加权。在实施例中，只显示和/或考虑具有在20-40％(例如，25％或更高)的某个置信度得分的边界框。

在实施例中，形成目标检测器函数的部分的第一人工神经网络(NN)和第二人工神经网络(NN)具有相似或相同的架构，但被训练为检测不同类型的解剖结构，并且可能是不同数量的类型。第二NN更加专用于检测特定的较小尺寸的解剖结构，在完整的医学图像中很难检测到较小尺寸的解剖结构，完整的医学图像是针对第一NN的输入。第一NN和第二NN也可以是不同的类别。因此，在下文中，每当使用术语“神经网络”时，都意指第一NN和/或第二NN，优选意指这两者，但不一定都意指这两者。

人工神经网络(NN)基于连接的人工神经元(也被称为节点)的集合，其中，每个连接(也被称为边)都能够将信号从一个节点传输到另一节点。每个接收信号的人工神经元都可以处理信号并将其转移到连接到它的另外的人工神经元。在有用的实施例中，第一NN和第二NN的人工神经元被分层布置。输入信号(即，医学图像的像素值)从第一层(也被称为输入层)行进到最后一层(输出层)。在实施例中，第一NN和/或第二NN是前馈网络。第一NN和第二NN优选包括若干层(包括隐藏层)，因此是深度神经网络。在实施例中，第一NN和第二NN是基于机器学习技术(特别是深度学习，例如，反向传播)来训练的。另外，可以以软件功能的形式提供第一NN和第二NN，而软件功能不一定与经过训练的神经网络完全相同的方式被结构化。例如，如果在训练后某些连接或边具有权重0，则在提供目标检测器函数时可以省去此类连接。

根据实施例，第一神经网络和/或第二神经网络不包括完全连接层，即，每个节点可以连接到后续层中的每个节点的层。在实施例中，第一NN和/或第二NN包括至少一个卷积层。在实施例中，第一神经网络和/或第二神经网络(优选是这两者)是全卷积神经网络(CNN)。全卷积NN可以被定义为没有完全连接层的卷积NN。卷积层在整个层上施加相对较小的过滤器内核，使得该层内部的神经元仅被连接到下一层的小区域。这种架构确保了所学习的过滤器内核对空间局部输入模式产生最强的响应。在本发明的实施例中，卷积层的参数包括可学习的过滤器内核的集合，它们具有小的感知场，但它延伸通过层体积的完整深度。在向前通过卷积层期间，每个过滤器内核都跨输入层的宽度和高度进行卷积，计算过滤器内核的条目与输入层之间的点积，并且产生与他的过滤器内核有关的输出图。沿着深度维度堆叠针对所有过滤器内核的输出图形成了卷积层的完整输出体积(在本文中也被称为特征图)。

卷积层通常由尺寸(维度)及其过滤器内核的步幅来定义，其中，单个卷积层可以包括若干过滤器内核，每个过滤器内核产生不同的输出图，这些过滤器内核沿着深度维度针对所有特征内核一起堆叠，从而形成输出体积或特征图。过滤器内核通常延伸通过输入体积的完整深度。因此，如果针对卷积层的输入层的维度为416×416×3，并且过滤器内核的尺寸为3×3，则实质上意指卷积过滤器内核的维度为3×3×3。这将得到单幅特征图。过滤器内核的步幅是过滤器内核在输入层/体积周围卷积时发生移位的像素数量。因此，步幅2的过滤器内核将引起输出层的维度减小为输入层的1/2。

在实施例中，第一NN和/或第二NN包括3至14之间的层块，优选包括4至10之间的层块，每个块包括卷积层，所述卷积层采用许多过滤器，每个过滤器均具有尺寸为3×3且步幅为1的过滤器内核，后跟有尺寸为2×2且步幅为2的最大池化层。因此，每个这样的块将层的维度降低为一半。在实施例中，第一NN和/或第二NN的卷积层以2³-2⁷(优选为2⁴-2⁶，例如，2⁵＝32)的因子对输入医学图像进行下采样。在该示例中，通过使用尺寸为416×416的输入图像，输出特征图可以具有13×13的维度。

通过使用卷积层与最大池化层的组合，图像的维度在图像行进通过第一NN和/或第二NN时减小了，从而最终得到对若干边界框的坐标、每个边界的置信度得分框和类型预测(例如，检测到的目标属于解剖结构的预定义的类型中的一种类型的概率)进行编码的3D张量。

在实施例中，第一神经网络和/或第二神经网络是对YOLOv3网络的调整结果，特别是YOLOv3微型网络的调整结果。YOLOv3在J.Redmon、A.Farhadi的“YOLOv3:An IncrementalImprovement”(arXiv preprint arXiv:1804.02767，2018年，发表于https://arxiv.org/abs/1804.02767)中得到公开。通过在微型版本的YOLOv3上进行训练，这种检测可以舒适地运行，而不要求任何额外的硬件支持。

第一NN/第二NN的输出：在实施例中，对于每个可能的边界框，第一NN和/或第二NN预测置信度得分(“客体”)和类型概率，所述置信度得分给出边界框包含属于多种类型中的任一种类型的解剖结构的概率，所述类型概率是边界框中的目标(解剖结构)属于经训练的类型中的每种类型的概率。如果有十种不同类型的目标/解剖结构(在其中已经训练了网络)，则网络将针对每个边界框预测十个概率值。只有考虑置信度得分和类型概率超过某个预定义阈值的边界框。

在实施例中，本发明的第一NN和/或第二NN的最终输出是通过在(最终)下采样的特征图(也被称为输出网格)上应用1×1检测内核来生成的，在本发明的实施例中，第一NN和/或第二NN的最终输出是通过在网络中的两个不同位置处的两个不同尺寸的特征图上应用1×1检测内核来生成的。检测内核的形状为1×1×(B*(5+C))。这里，B是特征图上的网格单元能够预测的边界框的数量，“5”针对四个边界框属性(x方向、y方向上的偏移和宽度/高度从锚定框偏移，如下文所解释的那样)以及一个对象置信度得分(也被称为“客体”)，并且C是类型的数量。因此，如果最终的特征图的维度为N×N(例如，9×9、13×13或26×26)，则对于B个锚定框、4个边界框属性、1个客体预测和C种类型的预测，3D输出张量的尺寸为N×N×[B*(4+1+C)]。如果B＝3，则最后一层中的每个网格单元可以预测最多三个边界框，其对应于三个锚定框。对于每个锚定框，张量包括置信度得分(即，框包含目标的概率)、表示相对于锚定框的边界框坐标的四个数字，以及包含目标属于每种预定义类型中的一种类型的概率的概率向量。从不同类型的概率中，使用逻辑回归来预测每种类型的得分，并且使用阈值来预测针对每个检测到的解剖结构的一个或几个注释。将高于该阈值的类型概率分配给边界框。

先前的锚定框/边界框：在实施例中，像在YOLOv3中，NN在相对于输出网格(例如，13×13网格)中的特定单元的xy偏移方面预测边界框的位置。一旦将图像划分成最终网格，对于每个目标(解剖结构)，就识别包含目标中心的网格单元，并且该网格单元现在“负责”预测目标。因此，每个边界框的中心是根据其从负责单元的偏移来描述的。另外，代替直接预测边界框的宽度和高度，该实施例(如YOLOv3)的NN预测相对于先前框(在本文中也被称为锚定框)的偏移宽度和高度偏移。因此，在训练期间，网络被训练为利用特定的高度-宽度比率来预测从预先确定的锚定框集合的偏移，所述特定的高度-宽度比率是使用聚类根据训练数据确定的。训练数据的注释框的坐标将按照要求被聚类成锚定框的数量，例如，在YOLOv3微型网络中，要求6个锚定框。通常，使用k均值聚类算法来生成锚定框集合。在真实情况与锚定框之间的并集上的相交率通常取自针对k均值聚类算法的距离度量。在本发明的第一NN和/或第二NN的实施例中，输出张量中的每个网格单元在其从三个锚定框的高度偏移和宽度偏移方面预测三个边界框。换句话说，在输出网格的尺寸为13×13的情况下，最多能够检测到13×13×3个边界框。

跨尺度的检测：根据本发明的实施例，第一NN和/或第二NN包括在两个至三个(优选为两个)不同的尺度下检测解剖结构，每个尺度由医学图像的预先确定的下采样给出。该概念被YOLOv3的作者称为“跨尺度的预测”。因此，使用级联将NN中的较早层与较晚层(其首先被上采样)合并。之所以这样做，是因为在较高分辨率的早期层中更容易检测到较小的目标，而在显著下采样的低分辨率的较晚层中不容易检测到较小的目标，但是较晚层包含在语义上的强特征。通过将较高分辨率的较早层与下采样的较晚特征图合并，该方法允许从上采样的特征图得到更有意义的语义信息并且从较早特征图得到更细粒度的信息。因此，可以预测第二输出张量，第二输出张量的尺寸是在尺度1下的预测的尺寸的两倍。在YOLOv3中，这是在三个尺度下完成的，而本发明的网络优选仅在两个不同的尺度下做出预测，其中，一个尺度在最下采样的层中，并且一个层的维度是最后一层维度的2¹-2²倍。通常，对于两个不同的尺度，本发明的神经网络将预测(N×N+2N×2N)×3个边界框。使用关于置信度得分和类型概率的阈值来滤除边界框，并且根据实施例，应用被称为非最大抑制的另一过滤器，该过滤器是在两个边界框之间的并集(IOU)上的相交率的函数。最大抑制过滤器的关键步骤如下：

选择边界框(满足关于类型概率和置信度得分的阈值)；

计算与满足阈值的所有其他框的交叠，并且移除所述交叠大于预先确定的IOU阈值的框；

返回步骤a)并且迭代执行操作，直到不再有比当前选定框的置信度得分更低的框为止。

能够在https://arxiv.org/pdf/1704.04503.pdf中找到关于非最大抑制的更多信息。

这样确保了最佳边界框(特别是两个尺度之间的最佳边界框)仍然是输出。

使用该网络架构的最大优点在于：网络的训练和鲁棒性都大大改善，特别是在网络仅在有限数量的类型上训练的情况下，针对临床应用能够实现上述效果。

输入医学图像的尺寸优选为奇数倍数2^Z，其中，Z可以是4至10之间的整数，因此在若干(例如，Z个)下采样步骤之后，最终网格将具有奇数维度，例如，7×7、9×9、11×11或13×13。因此，将有一个中心网格单元，这是有利的，因为常常在图像的中心发现较大尺寸的目标/解剖结构，因此有利的是：单个网格单元负责检测最大尺寸的目标。

根据优选实施例，目标检测器函数被训练为检测2至12(优选为3至6)种类型的解剖结构。例如，第一神经网络可以被训练为检测2-10(优选为3-6)种类型。例如，在第一学期筛查的情况下，类型是GS、子宫和胚胎。第二神经网络可以被训练为检测到更少的类型(例如，1-4种类型，例如，仅一种类型，例如，卵黄囊)。通过这样减少种类，能够使第一NN和第二NN非常小，每项只有9-16(优选为13个)卷积层，因此非常快速和鲁棒。

根据实施例，方法步骤a)包括接收在对对象的超声扫描期间采集的医学图像的视频流的步骤。因此，本发明的方面可以以每秒20-100帧的帧速率应用于时间系列的医学图像。另外，如果将超声图像编码在视频流中，超声图像将不是灰度图像，而是具有三条通道的彩色图像。通常，所有三条通道都具有相同的值，因为超声图像是灰度图像。因此，针对目标检测器函数的输入可以是三通道格式(例如，RGB)的医学图像。这具有以下优点：与用于摄影图像的NN架构相同的NN架构可以适于医学图像处理。

根据有用的应用，所述医学图像是在产前妊娠早期的超声扫描期间采集的，并且所述多种类型的解剖结构包括子宫、妊娠囊、胚胎和/或卵黄囊。最优选地，第一NN被训练为检测第一多种类型的较大尺寸的解剖结构(包括子宫、妊娠囊和胚胎)。因此，第二NN可以被训练为检测卵黄囊，并且可能检测另外的较小尺寸的解剖结构。

参考推断方案，在关于应用“妊娠早期筛查”的实施例中，如果子宫的检测到的边界框包括妊娠囊的检测到的边界框，并且妊娠囊的检测到的边界框包括胚胎和/或卵黄囊的检测到的边界框，则医学状况“正常妊娠”的概率增大。边界框的层次推断方案提供了对正常IUP病例和非IUP病例(如异位)的自动识别。因此，能够使诊断方法更加系统化，并且可以使用简单的方案来检测异常妊娠。

根据另一方面，本发明提供了一种用于训练在医学图像中检测多种类型的解剖结构的过程中有用的目标检测器函数的方法，所述目标检测器函数包括第一神经网络，所述方法包括：

(a)接收输入训练数据，即，对象的视场的至少一幅医学图像；

(b)接收输出训练数据，即，张量，所述张量包括在所述医学图像内的包含较大尺寸的解剖结构的至少一个第一边界框的坐标以及指示所述较大尺寸的解剖结构的类型的数字，所述较大尺寸的解剖结构属于第一多种类型的较大尺寸的解剖结构中的一种较大尺寸的解剖结构；

(c)通过使用所述输入训练数据和所述输出训练数据来训练所述第一神经网络。

可以使用该训练方法来训练本文描述的目标检测器函数，其中，优选如本文所描述的那样构建正在训练的第一神经网络。而且，输入训练数据是本文描述的视场的医学图像，例如，人体的B模式超声图像，特别是处于妊娠早期妊娠的生殖器官的医学图像。为了生成输出训练数据，可以用轴对齐的边界框手动注释构成输入训练数据的医学图像，每个边界框都完全覆盖一个解剖结构。从其中生成的数据是张量，所述张量包括包含较大尺寸的解剖结构的至少一个第一边界框的坐标以及指示所述解剖结构的类型的数字，其中，所使用的不同类型例如是子宫、GS和胚胎。在实施例中，可以利用从5-15个对象导出的数据集来训练目标检测器函数，每个对象有大致100-1000幅图像。为在这些图像中存在的所有可能的解剖结构绘制边界框。训练步骤的进行可以类似于在https://pjreddie.com/darknet/yolo/中开发的Darknet框架。然而，优选调整配置参数，以便在训练速度和训练损失方面取得更好的性能。特别地，优选调整学习速率和批次尺寸。在训练方法的实施例中，已经使用了以下参数：

在训练期间的批次数量＝64

在训练期间的细分数量＝16

最大批次数量＝500200

最终层中的过滤器的数量＝(没有类型+5)×3

锚定框＝取决于图像的分辨率，即，边界框的维度

步骤数量＝24000、27000

在第一NN和/或第二NN的训练阶段，通常将一批图像作为输入训练数据进行读取和传递。每个批次被分成小批次。令批次尺寸为N，并且令小批次的数量为n。然后，一次将(N/n)幅图像馈送到网络。该参数取决于GPU的可用性。通过使用更小的细分，用于计算梯度的小批次尺寸增大。因此，基于较大的小批次尺寸的计算梯度给出了更好的优化。根据深度学习惯例，也能够将一个批次视为一个时期。

根据实施例，所述训练方法还包括训练所述第二NN的步骤，包括以下的另外的步骤：

(d)接收输入训练数据，即，剪裁图像，所述剪裁图像包括包含较大尺寸的解剖结构的第一边界框的图像内容；

(e)接收输出训练数据，即，张量，所述张量包括在所述剪裁图像内的包含较小尺寸的解剖结构的至少一个第二边界框的坐标，所述较小尺寸的解剖结构属于至少一种第二类型的较小尺寸的解剖结构；

(f)通过使用所述输入训练数据和所述输出训练数据来训练所述第一神经网络。

因此，能够使用相同的输入训练数据来训练第一NN，但是在这种情况下，使用包括包含较大尺寸的解剖结构的边界框的图像内容的剪裁图像作为输入训练数据。输出训练数据是较小尺寸的解剖结构的边界框坐标。

本文描述的训练方法可以用于提供用于检测解剖结构的目标检测器函数，即，最初训练第一NN和/或第二NN。它也可以用于重新校准已经训练过的网络。第一NN和第二NN的训练可以通过反向传播来进行。在该方法中，使用预先确定的过滤器内核将输入训练数据传播通过相应的NN。使用误差函数或引起的函数将该输出与输出训练数据进行比较(其输出被反向传播通过NN)，从而计算梯度以找到过滤器内核，或者可能找到产生最小误差的其他参数(例如，偏差)。这可以通过调整过滤器内核的权重并在代价函数中遵循负梯度来完成。

本发明还涉及一种包括指令的计算机程序，所述指令在由计算单元运行时使所述计算单元执行本发明的方法。这对于在医学图像中自动检测解剖结构的方法以及训练方法(特别是对第一NN和第二NN的训练方法)是有用的。可以使用Darknet来实施所述计算机程序。这是被开发为训练神经网络的框架，它是开源的，并且是用C/CUDA编写的，并且充当YOLO的基础。储存库和维基百科在该特定链接(https://pjreddie.com/darknet/)中。计算机程序可以作为计算机程序产品来交付。

可以运行本发明的方法的计算单元可以是任何处理单元，例如，CPU(中央处理单元)或GPU(图形处理单元)。计算单元可以是计算机、云、服务器、移动设备(例如，笔记本电脑、平板电脑、移动电话等)的部分。特别地，计算单元可以是超声成像系统的部分。所述超声成像系统还可以包括显示器，例如。计算机屏幕。

本发明还涉及一种包括指令的计算机可读介质，所述指令在由计算单元运行时使所述计算单元执行根据本发明的方法，特别是用于在医学图像中自动检测解剖结构的方法或训练方法。这样的计算机可读介质可以是任何数字存储介质(例如，硬盘、服务器、云或计算机，以及光学或磁性数字存储介质、CD-ROM、SSD卡、SD卡、DVD或USB或其他存储棒)。计算机程序可以被存储在计算机可读介质上。

在实施例中，所述方法还包括以下步骤：将所述医学图像与以形成对比的颜色显示的所述至少一个第一边界框和所述至少一个第二边界框一起显示，使得用户可以检查预测的准确性。

根据另一方面，本发明涉及一种用于在对象的医学图像中自动检测解剖结构的系统，所述系统包括：

a)第一接口，其被配置用于接收所述对象的视场的至少一幅医学图像；

b)计算单元，其被配置用于将目标检测器函数应用于所述医学图像，其中，所述目标检测器函数被训练为检测多种类型的解剖结构，从而生成多个边界框的坐标以及针对每个边界框的置信度得分作为输出，所述置信度得分给出所述边界框包含属于所述多种类型中的一种类型的解剖结构的概率，其中，所述计算单元被配置用于执行以下步骤：

所述系统优选被配置为运行本发明的用于在医学图像中自动检测解剖结构的方法。计算单元可以是如上所述的与运行程序的计算单元有关的任何处理单元。所述系统可以被实施在超声成像系统上，特别是被实施在其处理单元(例如，GPU)中的一个处理单元上。然而，也可以例如经由互联网将医学图像从成像系统转移到本地或远程的另一计算单元，并且将边界框的坐标，甚至是预定义的医学状况的概率从本地或远程的另一计算单元传回成像系统并显示给用户或以其他方式输出给用户。在实施例中，所述系统可以包括用于输出边界框坐标(特别是用于输出在其中绘制第一边界框和第二边界框的医学图像)的第二接口。因此，第二接口可以被连接到显示设备，例如，计算机屏幕、触摸屏等。

另外，本发明还涉及一种用于训练目标检测器函数的系统，特别是通过本文描述的训练方法来训练第一NN和/或第二NN的系统。

根据另外的方面，本发明涉及一种超声成像系统，所述超声成像系统包括超声换能器和计算单元，所述超声换能器被配置为发射和接收超声信号，所述计算单元被配置用于如本文所描述的那样将目标检测器函数应用于所述医学图像，所述超声成像系统可以包括根据本发明的系统。由于本发明的方法的计算成本较低，因此它可以在现有的超声成像系统上运行。

附图说明

现在，应当参考附图来描述本发明的有用实施例。用相同的附图标记指代相似的元件或特征。这些附图描绘了以下内容：

图1：具有经注释的边界框的胎龄为8周4天的对象的胎儿超声扫描的医学图像；

图2：根据本发明的检测方法的实施例的流程图；

图3：本发明的检测方法的另一实施例的流程图；

图4：根据本发明的实施例的推断方案的流程图；

图5：利用本发明的实施例可实现的对解剖结构的定位的示例，其中，(a)示出了在子宫、妊娠囊(GS)和胚胎周围的框，(b)在剪裁的GS图像中示出了针对卵黄囊(YS)的边界框；

图6：第一神经网络(NN)和/或第二神经网络(NN)的示意图；

图7：根据本发明的实施例的训练方法的流程图；

图8：根据本发明的实施例的系统的示意图。

附图标记列表

医学图像

视场

解剖结构

3a 较大尺寸的解剖结构

3b 较小尺寸的解剖结构

目标检测器函数

边界框

推断方案

医学状况及其概率

7a 医学状况及其概率

7b 医学状况及其概率

7c 医学状况及其概率

8 显示

11 剪裁图像

12 训练图像

20 输入层

22 特征图

24 维度为3×3且步幅为1的卷积过滤器

25 维度为1×1且步幅为1的卷积过滤器

26 维度K＝(C+5)×B且步幅为1的卷积过滤器

28 尺寸为2×2且步幅为2的最大池化

29 尺寸为2×2且步幅为1的最大池化

30 尺寸为2×2且步幅为1的上采样

32a 输出层

39 上采样或下采样

40 第一神经网络

42 剪裁步骤

44 第二神经网络

45 上采样或下采样

50 第一边界框(坐标)

51 边界框(坐标)

52 边界框(坐标)

54 第二边界框(坐标)

60 IF/ELSE推断步骤

61 IF/ELSE推断步骤

62 IF/ELSE推断步骤

70 GS注释

71 U注释

72 胚胎注释

73 剪裁妊娠囊

75 YS注释

76 训练步骤NN1

78 训练步骤NN2

100 超声系统

102 硬件单元

104 CPU

106 GPU

108 数字存储介质

110 CD-ROM

112 互联网

114 用户接口

116 键盘

118 触摸板

120 超声探头

122 超声换能器

124 B模式图像

126 屏幕

128 远程服务器

具体实施方式

图1图示了用于训练目标检测器函数的可能的训练图像，即，在胎龄为8周4天的妊娠早期扫描期间采集的2D B模式医学超声图像1。人类对象已经绘制了边界框并对该边界框进行注释以生成输出训练数据。在子宫(U)周围绘制了最大边界框，在妊娠囊(GS)周围绘制了另一边界框，在妊娠囊内部能够看到胚胎(E)和卵黄囊(YS)这两者，这增大了正常妊娠的概率，与在GS内部看不到胚胎的情况相反。

图2图示了用于在医学图像1(例如，一系列2D超声图像1a、1b、1c)中检测解剖结构的方法的实施例。这些图像中的每幅图像都覆盖了略有不同的视场2，并且在图像1上能够区分器官或解剖结构3。下文详细描述的目标检测器函数44将这些图像一幅接一幅地传递。如本文所述，目标检测器函数4优选包括至少两个神经网络40、44。目标检测器函数4的输出是至少一个边界框5或其坐标以及至少一个边界框5包含特定解剖结构的置信度得分。置信度得分可以是客体，即，框5包含目标/解剖结构的概率和/或目标是一种特定类型的概率。

在有用的实施例中，在步骤8中，例如在可以被连接到图像采集单元的显示设备(例如，屏幕)上显示具有边界框5的输入图像1，在边界框5中绘制有足够高的置信度得分。然后，在步骤6中，能够基于检测到的解剖结构3、解剖结构3的空间位置和/或相对于彼此的关系来确定对象的预定义的医学状况(例如，正常/异常的状况(例如，IUP妊娠或非IUP妊娠))的概率。因此，推断方案6使用通过目标检测器函数4计算的边界框5，并且可以包括能够计算例如以下情况的算法：边界框5的特定类型是否被完全包括在另一类型中，以及存在还是不存在解剖结构3的某种类型。而且，可以计算边界框5的相对空间位置并且将其用于针对医学状况扣除合适的概率7。

图3更详细地图示了目标检测器函数4：输入再次是视场2的一幅或多幅医学图像1，其中的至少一些图像描绘了器官或解剖结构3。在实施例中，所接收的医学图像可以具有任何维度和像素尺寸，而第一NN 40在尺寸为M*2^Z x M*2^Z的正方形图像上最有效，其中，M是奇数。因此，在步骤39中任选地对医学图像1进行上采样或下采样，以便适配第一神经网络40的预期输入维度。第一NN 40的输出至少是边界框50、51、52的坐标(通常也是置信度得分)。如果检测到的边界框中的一个检测到的边界框具有属于预先确定的较大尺寸的解剖结构3a的类型，则将在剪裁步骤42中使用检测到的边界框50，以便将医学图像1剪裁到第一边界框50，从而生成剪裁图像11。“剪裁”意指例如在照片处理中通过剪切工具执行的操作，即，从较大的图像1中切割出较小的图像11，切割边缘沿着边界框50的边缘。因此，剪裁图像11不一定是正方形图像。因此，优选使该图像经受下采样或上采样的步骤45，使得剪裁图像11优选具有预定义的维度(例如，对于第一NN为正方形2D图像)，然后将其馈送到第二NN44。然后，该第二神经网络的输出是至少一个第二边界框54，所述至少一个第二边界框54包含较小尺寸的解剖结构3b。较小尺寸的解剖结构3b通常相对于视场2或被成像的整体器官或结构来说非常小或者具有非常精细的细节结构，以至于很难训练第一NN 40来检测较小尺寸的解剖结构3b。然而，如果知道了这样的结构的预期位置，就能够使用它首先在边界框50周围剪裁图像1，然后训练第二NN 44以(可能是排他性地)检测这种第二类型的较小尺寸的解剖结构3b，这样就不存在困难了。

图4是推断方案6的实施例的示意图，推断方案6使用根据第一NN和第二NN计算的边界框。推断步骤60在妊娠早期超声扫描的示例中可以计算是否存在针对GS的边界框。如果是，则该方法继续进行到步骤61。如果否，则它是异常妊娠(医学状况7c)的机会增大。在步骤61中，该算法确定GS的边界框是否是子宫的边界框的子集。如果是，则它是正常的IUP(状况7a)的概率增大时，并且该方法继续进行到步骤62。如果否，即，存在GS但GS不在子宫内，则医学状况7b“异位妊娠”的概率增大。可以在图像传递通过第一NN 40之后，在应用剪裁步骤42和第二NN 44之前执行这些步骤。然后，在推断的第二阶段，对YS和胚胎进行检测和定位。步骤62确定针对卵黄囊和/或胚胎的边界框是否是针对GS的边界框的子集。如果是，则它是正常妊娠(7a)的概率增大。如果在GS内未检测到YS和胚胎，则异常妊娠的机会增大(7c)。

图5图示了层次目标检测器函数的可能结果：在图5a中，描绘了已经在子宫、GS和胚胎周围识别出的边界框。根据本发明的实施例，已经在GS边界框周围剪裁了图像，如图5b所示。第二NN已经被训练为在GS内检测YS，并且在图中绘制了所得到的边界框。

图6示出了第一NN和/或第二NN的示意图，其优选是YOLOv3微型网络的调整结果。在这种表示形式中，在顶部用其维度(正方形图像)注释每个图像输入或特征图20、22，并且在底部用通道数量注释每个图像输入或特征图20、22。因此，输入数据集20是尺寸为416×416个像素并且具有三条通道的正方形2D图像，例如是(例如RGB)彩色图像。在灰度图像中，通常每条通道具有相同的值。另一方面，紧接在输出层32a之前的层仅具有13×13的维度和512条通道的深度。

将输入层20提交给维度为3×3且步幅为1的卷积过滤器24，后跟有尺寸为2×2且步幅为2的最大池化过滤器28。更确切地说，在该层中使用16个此类卷积过滤器24，每个卷积过滤器的深度为3，从而得到深度为16且具有维度208的特征图22a，该层相对于输入层20减小为1/2。利用维度为3×3且步幅为1的另一卷积过滤器对特征图22a进行卷积，然后用尺寸为2×2且步幅为2的最大池化28对特征图22a进行卷积，从而得到特征图22b。该操作或层块(即，维度为3×3且步幅为1的卷积过滤器24)(后跟有尺寸为2×2且步幅为2的最大池化28)再重复两次，从而得到总共5个卷积层24，每个卷积层24后跟有池化层28，从而每次将维度减小为1/2。然后，再次将特征图22e提交给卷积过滤器24，但是这次后跟有尺寸为2×2且步幅为1的最大池化29，因此不会在下一特征图22f中引起维度的进一步降低，特征图22f的深度为512并且维度为13×13。该层后跟有维度为3×3且步幅为1的另一卷积过滤器24，从而得到输出体积22g。将输出体积22g提交给维度为1×1且步幅为1的卷积过滤器25，卷积过滤器25用于将深度从1024减少到256。因此，卷积过滤器25可能被称为特征图池化或投影层。该过滤器减少了特征图的数量(通道数量)，但保留了显著特征。将该投影层的输出22h提交给维度为3×3且步幅为1的另一卷积过滤器24，从而得到输出体积22i，其最终后跟有维度为k且步幅为1的卷积过滤器26，其中，k＝(C+5)×B，其中，C是类型的数量，并且B是锚定框的数量，其在优选示例中为3。这将得到输出层32a，输出层32a可以被称为在尺度1下的YOLO推断，并且可以具有如上面所解释的输出格式，即，对于13×13个网格点中的每个点，它包含最多B(优选为3)个边界框的数据，每个边界框包括四个框坐标以及客体得分和个体类型概率。使用关于客体和/或类型得分的阈值来滤除边界框。

为了在尺度2下实施检测，使较早的特征图22d经受卷积过滤器24，从而得到特征图22j。另外，将特征图22h提交给卷积过滤器25，后跟有尺寸为2且步幅为1的上采样30，从而得到特征图22l。将它与特征图22j级联以得到特征图22m。将它提交给另一3×3的卷积过滤器24，从而得到特征图22n。将该特征图再次提交给卷积过滤器26，从而得到输出体积(3D张量)32b，因此，输出体积(3D张量)32b包含在较高分辨率26×26网格的每个单元上的B边界框的坐标和概率。可以如上所述地组合在尺度1下的边界框预测与在尺度2下的边界框预测。

图7示意性地描述了一种训练方法。其中，已经提供了训练图像12。对于本文描述的示例，为了算法的开发，已经收集了胎龄少于11周的胎儿超声扫描。然后，使用从超声扫描中收集的图像帧中的每个图像帧来进行手动注释。用覆盖整个解剖结构(U、GS、E、YS，其示例如图1所示)的轴对齐的边界框注释每幅图像。确保数据分布是均匀的，并且向所有可能的胎龄给予相等的权重年龄。例如，通过绘制针对GS、U和胚胎的边界框来注释超过500至5000幅图像12，其中，在图7中用70、71和72来指代相应的注释。使用妊娠囊注释70来剪裁妊娠囊(步骤73)。在剪裁图像上，注释卵黄囊，并且将该注释保存为75。

因此，将训练图像12用作输入训练数据，并且将GS注释70、子宫注释71和胚胎注释72用作输出训练数据，以在步骤76中训练第一NN。相应地使用在GS 73周围剪裁的图像和卵黄囊注释75来在步骤78中训练第二NN。

图8是根据本发明的实施例的被配置为执行本发明的方法的超声系统100的示意图。超声系统100包括通常的超声硬件单元102，超声硬件单元102包括CPU 104、GPU 106和数字存储介质108(例如，硬盘或2019PF0035020固态光盘)。可以从CD-ROM 110或通过互联网112将计算机程序加载到硬件单元中。硬件单元102被连接到用户接口114，用户接口114包括键盘116和任选的触摸板118。触摸板118也可以充当用于显示成像参数的显示设备。硬件单元102被连接到超声探头120，超声探头120包括超声换能器122的阵列，该阵列允许从对象或患者(未示出)(优选为实时)采集B模式超声图像。利用超声探头120采集的B模式图像124以及通过由CPU 104和/或GPU执行的本发明的方法生成的边界框5被显示在屏幕126上，屏幕126可以是任何可商业购买的显示单元，例如，屏幕、电视机、平面屏幕、投影仪等。另外，可以例如经由互联网112与远程计算机或服务器128进行连接。根据发明的方法可以由硬件单元102的CPU 104或GPU 106来执行，但是也可以由远程服务器128的处理器15来执行。

上述讨论仅旨在说明本系统，而不应被解释为将权利要求限制到任何特定的实施例或实施例组。因此，虽然已经参考示例性实施例具体且详细地描述了本系统，但是还应当理解，本领域普通技术人员可以在不脱离如权利要求所阐述的本发明的更广泛和预期的精神和范围的情况下设计出许多修改和替代实施例。因此，说明书和附图应被视为是说明性的，而不是要限制权利要求的范围。

Claims

1.一种用于在对象的医学图像(1)中自动检测解剖结构(3)的计算机实施的方法，所述方法包括以下步骤：

a)接收所述对象的视场(2)的至少一幅医学图像(1)；

b)将目标检测器函数(4)应用于所述医学图像，其中，所述目标检测器函数被训练为检测多种类型的解剖结构(3)，从而生成多个边界框(5)的坐标以及针对每个边界框的置信度得分作为输出，所述置信度得分给出所述边界框包含属于所述多种类型中的一种类型的解剖结构的概率；

其特征在于，所述目标检测器函数执行以下步骤：

将第一神经网络(40)应用于所述医学图像，其中，所述第一神经网络被训练为检测第一多种类型的较大尺寸的解剖结构(3a)，从而生成至少一个第一边界框(51)的坐标以及所述至少一个第一边界框包含较大尺寸的解剖结构的置信度得分作为输出；

将所述医学图像剪裁(42)到所述第一边界框，从而生成包含所述第一边界框(51)内的图像内容的剪裁图像(11)；

将第二神经网络(44)应用于所剪裁的医学图像，其中，所述第二神经网络被训练为检测至少一个第二类型的较小尺寸的解剖结构(3b)，从而生成至少一个第二边界框(54)的坐标以及所述至少一个第二边界框包含较小尺寸的解剖结构的置信度得分作为输出，

所述目标检测器函数基于较大尺寸的解剖结构与较小尺寸的解剖结构之间的层次关系，其中，所述第一多种类型的较大尺寸的解剖结构中的至少一种较大尺寸的解剖结构被预期包含较小尺寸的解剖结构的类型中的一种或多种类型。

2.根据权利要求1所述的方法，还包括以下的另外的步骤：

c)确定所述对象的预定义的医学状况(7a、7b、7c)的概率，其中，所述预定义的医学状况的概率是使用推断方案(6)基于一种或多种类型的解剖结构的存在或不存在和/或基于包含解剖结构的检测到的边界框的相对空间位置来确定的。

3.根据权利要求1或2所述的方法，其中，如果包含第一类型的解剖结构的第一检测到的边界框(51)涵盖包含第二类型的解剖结构的第二检测到的边界框(54)，则预定义的医学状况的概率增大。

4.根据前述权利要求中的任一项所述的方法，其中，针对在所述对象的同一检查时期期间采集的具有不同视场的多幅二维医学图像(1a、1b、1c)迭代地执行所述方法，并且使用针对检测到的边界框(51、52、53、54)的置信度得分来计算最适合用于进一步评价的一幅或多幅医学图像或一个或多个视场。

5.根据前述权利要求中的任一项所述的方法，其中，所述第一神经网络(40)和/或所述第二神经网络(44)是全卷积神经网络。

6.根据前述权利要求中的任一项所述的方法，其中，所述第一神经网络(40)和/或所述第二神经网络(44)包括以两种不同尺度对解剖结构(3a、3b)的检测，每种尺度是通过对所述医学图像的预先确定的下采样来给出的。

7.根据前述权利要求中的任一项所述的方法，其中，所述第一神经网络(40)和/或所述第二神经网络(44)是YOLOv3全卷积神经网络。

8.根据前述权利要求中的任一项所述的方法，其中，所述目标检测器函数(4)被训练为检测2至12种类型的解剖结构(3a、3b)，优选检测3至5种类型的解剖结构。

9.根据前述权利要求中的任一项所述的方法，其中，所述医学图像是在产前妊娠早期的超声扫描期间采集的，并且所述多种类型的解剖结构包括子宫、妊娠囊、胚胎和/或卵黄囊。

10.根据权利要求2和9所述的方法，其中，如果子宫的检测到的边界框包括妊娠囊的检测到的边界框并且妊娠囊的检测到的边界框包括胚胎和/或卵黄囊的检测到的边界框，则医学状况“正常妊娠”的概率增大。

11.一种用于训练用于在医学图像中检测多种类型的解剖结构(3)的目标检测器函数(4)的方法，所述目标检测器函数包括第一神经网络(40)，所述方法包括：

(a)接收输入训练数据，即，对象的视场的至少一幅医学图像(12)；

(b)接收输出训练数据(70、71、72)，即，张量，所述张量包括在所述医学图像内的包含较大尺寸的解剖结构(3a)的至少一个第一边界框的坐标以及指示所述较大尺寸的解剖结构的类型的数字，所述较大尺寸的解剖结构属于第一多种类型的较大尺寸的解剖结构中的一种较大尺寸的解剖结构；

(c)通过使用所述输入训练数据和所述输出训练数据来训练所述第一神经网络(40)；

(d)接收输入训练数据(73)，即，剪裁图像(11)，所述剪裁图像包括包含较大尺寸的解剖结构(3a)的第一边界框的图像内容；

(e)接收输出训练数据(75)，即，张量，所述张量包括在所述剪裁图像内的包含较小尺寸的解剖结构(3b)的至少一个第二边界框的坐标，所述较小尺寸的解剖结构属于至少一种第二类型的较小尺寸的解剖结构；

(f)通过使用所述输入训练数据和所述输出训练数据来训练第二神经网络(44)。

12.根据权利要求11所述的训练方法，其中，所述输出训练数据包括张量，所述张量的尺寸为N×N×[B*(4+1+C)]，其中，N×N是最终特征图的维度，B是锚定框的数量，并且C是类型的数量，其中，锚定框的数量优选为3或6。

13.根据权利要求11或12所述的训练方法，其中，所述输出训练数据是通过在下采样的特征图上应用1×1检测内核来生成的，其中，所述检测内核的形状为1×1×(B*(5+C))，其中，B是锚定框的数量，并且C是类型的数量，其中，锚定框的数量优选为3或6。

14.一种包括指令的计算机程序(108)，当所述程序由计算单元(106)运行时，所述指令使所述计算单元执行根据权利要求1至13中的任一项所述的方法。

15.一种用于在对象的医学图像中自动检测解剖结构的系统(100)，所述系统包括：

b)计算单元(106)，其被配置用于将目标检测器函数(4)应用于所述医学图像，其中，所述目标检测器函数被训练为检测多种类型的解剖结构(3)，从而生成多个边界框(5)的坐标以及针对每个边界框的置信度得分作为输出，所述置信度得分给出所述边界框包含属于所述多种类型中的一种类型的解剖结构(3)的概率，其中，所述计算单元被配置用于执行以下步骤：

将所述医学图像剪裁(42)到所述第一边界框，从而生成包含所述第一边界框(51)内的图像内容(51)的剪裁图像(11)；

将第二神经网络(44)应用于所剪裁的医学图像，其中，所述第二神经网络被训练为检测至少一个第二类型的较小尺寸的解剖结构(3b)，从而生成至少一个第二边界框(54)的坐标以及所述至少一个第二边界框包含较小尺寸的解剖结构的置信度得分作为输出，其中，所述目标检测器函数基于较大尺寸的解剖结构与较小尺寸的解剖结构之间的层次关系，其中，所述第一多种类型的较大尺寸的解剖结构中的至少一种较大尺寸的解剖结构被预期包含较小尺寸的解剖结构的类型中的一种或多种类型。