CN112529930A

CN112529930A - 一种基于聚焦融合的上下文学习医学图像分割方法

Info

Publication number: CN112529930A
Application number: CN202011503406.3A
Authority: CN
Inventors: 王如心; 李烨
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-19

Abstract

本发明公开了一种基于聚焦融合的上下文学习医学图像分割方法。该方法包括以下步骤：对原始图像数据进行预处理；将预处理的图像数据输入到经训练的卷积神经网络进行特征提取，其中所述卷积神经网络的编码网络包含多个编码阶段并且每个编码阶段依次连接自动聚焦模块和全景聚合模块，所述卷积神经网络的解码网络顺序地解码编码阶段的特征并生成对应的解码特征，其中所述自动聚焦模块用于同级编码特征的多尺度上下文信息挖掘，所述全景聚合模块用于聚合来自不同编码阶段的跨层级编码特征。利用本发明能有效地编码同级特征并实现了跨级特征的高效融合，从而显著提升了图像分割的精度。

Description

一种基于聚焦融合的上下文学习医学图像分割方法

技术领域

本发明涉及生物医学工程技术领域，更具体地，涉及一种基于聚焦融合的上下文学习医学图像分割方法。

背景技术

随着医学影像学设备的快速发展和普及，成像技术包括磁共振成像(MR)、计算机断层扫描(CT)、超声、正电子发射断层扫描(PET)等，成为医疗机构开展疾病诊断、手术计划制定、预后评估、随访不可或缺的设备。医学图像处理是分析医学图像的首要步骤，有助于使图像更加直观、清晰，提高诊断效率，因此国内外都十分重视医学影像处理。而图像分割是图像处理的重要环节，也是难点，精确的疾病检测对于医学诊断可以提供重要且可靠的参考价值。医学图像中病变区域往往表现出很高的类内差异性，以及类间的区分度不明显等情况，同时一些噪声也会干扰图像质量。因此如何提取有效的上下文信息以及如何聚合不同水平的判别特征对于精细的分割图像仍是一个很大的挑战。

目前，随着医学图像数量的增加以及人工智能(Artificial Intelligence，AI)技术的发展，计算机辅助诊断成为一种重要的手段，然而对于自动识别医学影像中的感染区域，检测图像中的阴影和病变部分仍然是一项具有挑战性的任务。其中高类间相似性和类内差异性是影响识别准确性的主要问题。例如对于肺部CT图像，由于肺感染病变具有复杂的特征性表现如肺实变、毛玻璃样混浊、双侧斑片状阴影等多种异常，并且对于患者在不同时期的感染症状表现也明显不同。此外，低对比度以及模糊的边界进一步增加了图像自动分割的难度。

最近，受益于卷积神经网络(Convolutional Neural Network，CNN)的发展，许多传统医学图像处理问题取得了重大突破，相比于传统的人工特征，深度学习方法更有效地从图像中提取高层语义特征。目前大多数的医学图像语义分割网络遵循编解码框架。通过这种结构，网络可以挖掘出丰富的语义信息用于目标分割任务。例如，U-Net采用了跳跃连接来桥接编码层和解码层之间的同级信息，有效地补充了信息在编解码过程中的损失，在解码过程中取得了优异的性能。U-Net++使用了网状的跳跃连接结构来集成功能不同的语义层次，提供了更好的分割性能。为了扩充特征表示并且保留精确的结构信息，条件随机场(conditional random field，CRF)，马尔科夫随机场(markov random field，MRF)，空间金字塔池等技术被采用，例如PSPNet在编码网络中采用了多个金字塔池化获取多尺度上下文信息。

一般情况下，编码网络从原始输入图像开始通过连续的多重卷积运算提取高水平语义特征表示。解码网络对编码特征采用渐进上采样(或反卷积)策略获得最终分割结果。级联卷积操作可以在编码过程中有效地提取对象的高级语义信息，但同时它们也会导致对象边界分割不够准确。尤其是对于小病灶，由于重复CNN内部的池化操作，很多以CNN为基础的模型未能保留足够的空间细节和长程的上下文信息保持。此外，在每个阶段对于编码子网络，模型需要响应因感染病灶大小不同而产生的类内差异性，具有单一尺度局部感受野的CNN网络很难适应这种病变差异性很大的分割任务。

总之，现有技术的主要缺陷主要是：

1)传统分析方法，在处理医学图像分割问题时，通常以特征点、边缘检测等为基础进行分析，其缺点是易受成像对比度、噪声以及一些人工效应的干扰，分析精度低。另外，传统方法往往严格依赖设计的人工特征进行图像编码，对复杂场景的预测性能通常会受到极大的限制。

2)由于连续重复CNN内部的池化操作，很多以CNN为基础的模型未能保留足够的空间细节和长程的上下文信息保持。

3)由于医学影像中病变通常表现出高的类内差异性和类间相似性，模型需要响应因感染病灶大小不同而产生的类内差异性。具有单一尺度局部感受野的CNN网络很难适应这种病变差异性很大的分割任务。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于聚焦融合的上下文学习医学图像分割方法，通过自动聚焦模块有效的编码同级特征，通过全景聚合模块实现了跨级特征的高效融合。

本发明的技术方案是提供一种基于聚焦融合的上下文学习医学图像分割方法。该方法包括以下步骤：

对原始图像数据进行预处理；

将预处理的图像数据输入到经训练的卷积神经网络进行特征提取，其中所述卷积神经网络的编码网络包含多个编码阶段并且每个编码阶段依次连接自动聚焦模块和全景聚合模块，所述卷积神经网络的解码网络顺序地解码编码阶段的特征并生成对应的解码特征，其中所述自动聚焦模块用于同级编码特征的多尺度上下文信息挖掘，所述全景聚合模块用于聚合来自不同编码阶段的跨层级编码特征。

与现有技术相比，本发明的优点在于，通过自动聚焦和全景聚合模块有效地提取了精细的细节和语义知识，并捕捉到同级和交叉水平的长程上下文依赖关系；此外，利用新的结构一致性校正方法有效地改善前背景的分割效果。利用本发明能够对网络编码过程中每个阶段的丰富上下文信息和细粒度特征进行提取，同时结构一致性较正进一步校正和细化病灶边界，显著改善了图像分割的准确率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于聚焦融合的上下文学习医学图像分割方法的流程图；

图2是根据本发明一个实施例的基于聚焦融合的上下文学习医学图像分割方法的整体框架图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明设计了一种新的卷积网络框架，有效地整合了图像同级和跨层级的上下文信息。该模型主体包括编码网络和解码网络。简言之，为了得到编码网络每一阶段更加丰富的特征表示，设计了自动聚焦模块用于同级特征的多尺度上下文信息挖掘。进一步，设计全景聚合模块，自适应地聚合来自编码网络不同阶段的跨层级编码特征，有效避免在特征融合中由大分辨率差异引起的干扰，同时通过跨层的信息互补对每一阶段的编码特征进一步的补充细节和语义信息。此外，还提出了新的结构一致性校正方法，通过约束前景和背景之间的结构关系，在监督学习过程中补充图像区域结构级的信息。

具体地，结合图1和图2所示，所提供的基于聚焦融合的上下文学习医学图像分割方法包括以下步骤：

步骤S110，对原始图像数据进行预处理。

首先对原始图像进行预处理，例如包括规范化、随机翻转，随机裁剪等数据增强手段，对样本进行扩充和增强。

步骤S120，构建多层卷积神经网络，该网络主干包含编码网络和解码网络，其中编码网络包含多个编码阶段并且每个编码阶段依次连接自动聚焦模块和全景聚合模块，以用于同级编码特征的多尺度上下文信息挖掘并聚合来自不同编码阶段的跨层级编码特征。

结合图2所示，构建多层卷积神经网络进行特征提取。例如，编码网络采用残差神经网络Resnet作为主体结构，其包含四个残差卷积模块。在编码网络中，Resnet中的最后一个全局池化层及全连接层被去掉，只保留一个卷积和四个残差模块用于主要的特征提取。不失普遍性，对于每张输入图像，将四个残差模块的输出分别表示为f_i，i∈{1，2，3，4}。为了对感染病变的多样性做出响应，同时有效地整合不同编码阶段的特征实现特征的信息互补，优选地，在编码网络的每个阶段使用自动聚焦模块充分挖掘同一水平的多级特征，并通过设计全景聚合模块聚合不同水平的特征，最后通过结构一致性较正，进一步提升分割的精度。为清楚起见，以下将以编码网络包含四个残差卷积模块为例具体描述。

1)关于自动聚焦模块

传统单一固定大小的局部感受野不足以响应病变多样性变化。由于不同卷积感受野对内部病变有不同的反应，如大的感受野适合捕捉更宏观的特征和刻画病变之间的关系，而小感受野更倾向于提取病变的局部表现。此外，不同空间分辨率下生成的特征的语义表示之间可以有效的进行互相修正和互补。因此，本发明引入自动聚焦机制，通过构建双向的连续的感受野扩大和缩小通路，使用门控机制聚合双向的上下文信息，形成当前阶段一个鲁棒的特征表示。

首先，定义一系列变换操作

(例如池化和卷积)，使得实现感受野逐渐扩大(或缩小)，对每一阶段的编码特征f_i分别进行这些变换，得到对应的特征图，表示为：

其中，

表示对应的参数，

表示f_i经第t个变换后得到的特征图。

进一步，为了自动聚合这些同级映射中的多级特征，提出了一种新颖的双向门控上下文聚合(bi-GCA)方法实现该过程，其主要包含一个上下文控制器

负责合成流入信息和一个存储器

用来更新和存储之前的信息流，其计算公式如下：

其中

和

表示三个门，用来自适应的选择通过的流信息，σ表示sigmoid激活函数，

表示逐像素相乘，

表示一个1x1的卷积层，

表示对应的卷积参数，

表示按顺序对第t个变换后的特征

进行整合后的输出特征映射，

表示拼接过程。通过该聚合方法，可以实现双向的聚合过程如下：

其中

表示前向整合过程

的输出特征，

表示逆向整合过程

的输出特征，F_i，AM表示自动聚焦模块同级双向整合后的特征输出。

2)关于全景聚合模块

由于连续的卷积和采样操作，许多基于CNN的模型都会遇到上下文的短程依赖的局限性，不能同时维护细粒度的细节以及提取丰富的高级语义信息。在一个实施例中，设计了一个基于全局信息指导的全景聚合方法，在全局视角下，通过跨级的上下文集成单元

有效地聚合不同阶段的编码信息。

首先，通过拼接聚合各编码阶段经自动聚焦模块后得到的特征图构建一个全局的上下文信息表示Z，表示为：

其中，

表示一个1x1的卷积层，

表示拼接过程，θ_Z表示对应的参数。然后，运用注意力机制指导这种全局信息进入每一阶段的编码特征，通过全局信息来补充每一阶段的信息：

其中，

表示自注意力机制，AvgPool表示全局平均池化操作，σ表示sigmoid激活函数。通过上述步骤，每一阶段的编码特征都得到了全局信息的增强，θ_i，Z和

分别表示对应的参数。

接下来，进一步整合不同阶段的编码特征聚合到当前阶段：

其中，r_i表示门函数用来选择性的控制信息的传递，

表示逐像素相乘，

表示跨级的特征聚合单元，F_i，PM表示第i阶段全景聚合模块的输出特征图。

因此，来自于不同阶段的特征通过全景聚合模块整合起来，而且能够避免引入过多的冗余信息。受益于全景聚合模块，跨层次上下文信息有效的互补整合，编码子网络的高、低级水平的特征映射都得到了增强。

步骤S130，解码网络解码编码阶段的特征并生成对应的解码特征。

通常编码表示直接转换成像素级的二值分割图像通过使用像素级的约束进行监督。然而，这种方式只考虑每个单独的像素及其对应的真实值之间的关系。忽略了像素周围区域之间的相关性，因此容易产生不精确的分割结果。

在一个优选实施例中，提出了一种新的结构一致性校正方法。首先，产生一个初始的分割结果。解码网络通过顺序地解码编码阶段的特征F_i，PM并生成对应的解码特征D_i，i∈1，2，3，4：

其中，D_i表示第i阶段的解码特征，

表示1x1卷积，θ_i，D表示相应的参数。通过上采样和softmax激活得到初始的预测分割结果P。

然后，应用距离变换技术(DT)进一步利用结构一致性进行预测校正。具体地，在网络监督训练过程中，通过距离变换首先将预测结果和对应的真实分割模板这一对二值图像均分别进行如下变换：

其中，s_l表示像素l的预测值或真实值，l_x和l_y表示像素l的空间位置，k_x和k_y表示距离像素l最近的背景像素k的空间位置，dist_M(l，k)表示像素l和k之间的距离(使用测度M)，I_fg表示图像中的前景像素集合，I_bg表示图像中的背景像素集合。通过上述DT映射，有效地将每个像素周围的区域结构信息整合到了一起，因此利用KL散度(相对熵)约束预测结果DT变换后的图像I_D(P)和对应真实模板的DT变换后的图像I_D(G)之间保持分布的一致性如下：

D_SCR＝D_KL(I_D(P)||I_D(G)) (9)

应用上述一致性约束，有效地利用了像素周围的结构信息补充了单一的像素级的监督学习，从而有效提高了图像分割的精度。

需说明的是，在不违背本发明精神和范围的前提下，本领域技术领域可对上述实施例进行适当的改变或变型，例如，编码网络包含更多的编码阶段。又如，在解码阶段，不必须利用结构一致性校正方法，而在优选包含结构一致性校正方法的情况下，本发明也被称为基于聚焦-聚合-修正的上下文学习医学图像分割方法。经训练的卷积神经网络可用于实时的医学图像分割。此外，本发明方法可进一步整合设计半监督和弱监督技术，更好地处理大量未标记和弱标记的样本。

为进一步验证本发明的效果，进行了实验。结果表明，在基于新冠肺炎患者肺部CT图像分割病变区域的实验中取得了目前最优的分割效果，单类病变分割平均交并比(MeanIntersection over Union，mIoU)指标达73.2％，多类病变联合分割，平均mIoU达到40.0％，分割表现超过现有基于此任务的深度学习模型。

综上所述，本发明突破传统深度学习方法只利用全卷积网络高级特征进行解码的不足，使用自动聚焦和全景聚合模块进行集成，有效地利用了编码网络的同级和跨级的上下文信息，捕获了更丰富的细粒度特征表示，实现了不同水平的特征信息互补；所设计的双向门控上下文聚合方法，充分利用自动聚焦模块中的同级编码特征；所设计的全景聚合模块自适应地结合了交叉水平的编码特征，有效捕获了上下文的长程依赖关系，实现了不同层次特征之间的信息互补；所设计的结构一致性校正方法，作为传统像素水平监督学习的补充，通过基于结构关系的约束提升图像分割性能。总之，本发明通过自动聚焦模块有效的编码同级特征，通过全景聚合模块实现了跨级特征的高效融合，最后通过结构一致性校正方法，进一步提高了图像分割的精度。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。