CN112927240B

CN112927240B - 一种基于改进的AU-Net网络的CT图像分割方法

Info

Publication number: CN112927240B
Application number: CN202110249702.3A
Authority: CN
Inventors: 胡敏; 周秀东; 黄宏程
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-04-05
Anticipated expiration: 2041-03-08
Also published as: CN112927240A

Abstract

本发明属于图像处理领域，具体涉及一种基于改进的AU‑Net网络的CT图像分割方法，该方法包括：获取待分割的脑CT图像，对获取的脑CT图像进行预处理；将处理好的图像输入到训练好的改进AU‑Net网络中进行图像识别分割，得到分割后的CT图像；根据分割后的脑CT图像识别脑出血区域；改进的AU‑Net网络包括编码器、解码器以及跳跃连接部分；本发明针对脑出血CT图像出血部位大小及形状差异性较大而导致分割精度较低的问题，提出了一种基于编码‑解码结构，在该结构中设计了一种残差八度卷积模块，使得模型能更精确的分割识别图像。

Description

一种基于改进的AU-Net网络的CT图像分割方法

技术领域

本发明属于图像处理领域，具体涉及一种基于改进的AU-Net网络的CT图像分割方法。

背景技术

脑出血是指原发性脑实质出血，又称为脑血肿，通过核磁共振(MagneticResonance Imaging，MRI)、计算机断层扫描(Computed-Tomography，CT)、超声(Ultrasound，US)以及其他的医疗影像技术得到的器官解剖图能够客观的反映病患的病理变化情况。临床上，脑出血在CT影像上表现为高亮的区域，正常的脑部软组织在CT图像上表现为黑色。医生根据每张CT图像上表现出来的脑出血区域结合经验判定出血量等相关指标。运用图像分割技术对每张脑出血CT图像进行目标区域的分割，计算出目标区域所占面积的大小，并根据CT层间距以及含有脑出血部位的CT图像数，计算出脑出血量占据的体积，从而更好的为手术做准备。

目前，图像分割方式主要分为人工分割、半自动分割和全自动分割。人工分割是指有经验的放射科医生直接在原始的图像上借助相关的医学图像处理软件对感兴趣区域的边界进行勾画；该方法受主观影响，且分割的效率低。半自动分割方式是指借助计算机处理数据的能力加上人为操作得到分割区域，该方法虽然提高了医学图像的处理效率，但是依旧需要有经验的人员进行相关的操作。对于全自动分割的方式为采用计算机来进行图像分割的过程。

目前，全自动分割的方法中包括Ronnebergeretal提出的用于分割生物显微镜图像的U-Net，该方法采用的编码器(下采样)-解码器(上采样)结构和跳跃连接，采用数据增强技术使得网络更有效地从可用的注释图像中学习特征，在少样本的情况下实现较好的分割；Milletari提出V-Net，该网络将U-Net中的二维卷积扩展到三维，用于三维医学图像分割，但是该方法考虑了三维信息，计算复杂度偏高；R2U-Net将残差连接和循环卷积结合，替换了U-Net中的子模块，用于皮肤病图像、视网膜图像、肺部图像的分割；UNet++在U-Net基础上改进了跳跃连接的部分，弥补了U-Net浅层和深层特征融合时存在的语义鸿沟问题。

上述的现有技术中直接应用于脑出血CT图像分割时存在局限性；由于人脑部结构的复杂性，脑出血区域在CT图像上像素特征与颅骨部位的像素特征极为相似，在分割的时候，颅骨部位的像素会对病灶区域产生干扰；脑出血病灶在CT影像上存在出血位置和尺度的多变性，导致目标区域在样本上分布不均衡，在神经网络训练阶段不利于提取图像特征，从而影响分割效果，因此，急需一种用于脑部CT图像分割模型进行图像分割处理。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于改进的AU-Net网络的CT图像分割方法，该方法包括：获取待分割的脑CT图像，对获取的脑CT图像进行预处理；将处理好的图像输入到训练好的改进混合注意力机制网络AU-Net中进行图像识别分割，得到分割后的CT图像；根据分割后的脑CT图像识别脑出血区域；改进的AU-Net网络包括编码器、解码器以及跳跃连接部分；

所述编码器由重复的卷积层和池化层组成，用于提取输入图像的浅层特征和深层特征；

所述解码器由转置卷积层构成，用于恢复特征图的尺寸；

所述跳跃连接部分为残差八度卷积模块ROC和混合注意力机制模块组成。

优选的，对获取的脑CT图像进行预处理的过程包括：对数据进行去噪和增强处理，去噪增强处理的过程包括对图像进行先腐蚀后膨胀运算，得到增强图像。

优选的，残差八度卷积模块ROC的结构包括：三个权重层和一个残差连接层组成；权重层由OctConv-BN-ReLu三部分组成，通过设置α_in，α_out来得到不同频率分量的特征；采用权重层1对输入的特征图进行处理，得到输入特征图的高频分量和低频分量；权重层2采用OctConv网络进行特征提取；权重层3将高频信息和低频信息融合，得到融合后的特征；采用残差连接对各个权重层进行连接，进一步强化特征传播，提升网络性能；其中，OctConv表示八度卷积层，BN表示批量归一化层，ReLu表示激活函数层，α_in表示输入通道低频比例，α_out表示输出通道低频比例。

优选的，对模型进行训练的过程包括：

S1：获取原始脑部CT图像，并对图像进行预处理，得到训练数据集；

S2：将训练集中的图像数据输入到改进的AU-Net网络进行处理；

S3：编码器的卷积层对输入的数据进行浅层特征提取，得到图像的浅层特征；

S4：跳跃连接部分的ROC结构将提取的浅层特征传递至混合注意力机制模块；

S5：混合注意力机制对目标区域特征和通道特征进行选择，并将选择后的特征传递至编码器的输出层；

S6：解码器的反卷积层将经过编码器多次卷积和下采样得到深层特征图进行特征图尺寸恢复；

S7：将编码器上采样后的特征与混合注意力机制输出的特征进行特征拼接，将拼接后的特征图传递至最后一个卷积层，得到最后的特征图；

S8：将最后的特征图与标签图像进行逐像素比对，得到误差；

S9：根据误差结果计算模型的损失函数，并将误差通过反向传播算法输入到模型，更新在网络提取特征时候的卷积核权重和各模块中的参数，当损失函数最小时，完成模型的训练。

进一步的，采用混合注意力机制模块对位置注意力特征矩阵和通道注意力特征矩阵进行组合的公式为：

M＝E_P+E_T

其中，M表示混合注意力机制模块输出，E_P表示位置注意力特征矩阵，E_T表示通道注意力特征矩阵，E_Pj表示E_P中的每一个位置加权注意力特征向量，E_Tj表示E_T中的每一个通道加权注意力特征向量，α表示超参数权重，β表示超参数权重，H表示输入特征图的高度，W表示输入特征图的宽度，W表示输入特征图的特征通道数，A_i和A_j表示输入特征图中的每一个特征向量，B1_i、C1_j、D2_i均表示经过特征重组后的特征矩阵。

进一步的，残差八度卷积模块ROC处理图像的公式包括高频信息处理公式和低频信息处理公式；

高频信息处理公式为：

Y^H＝f(X^H；W^H→H)+upsample(f(X^L；W^L→H),2)

低频信息处理公式为：

Y^L＝f(X^L；W^L→L)+f(pool(X^H,2)；W^H→L)

进一步的，改进的AU-Net网络的损失函数的表达式为：

本发明针对脑出血CT图像出血部位大小及形状差异性较大而导致分割精度较低的问题，提出了一种基于编码-解码结构，在该结构中设计了一种残差八度卷积模块(Residual Octave Convolution，ROC)以及混合注意力机制模块，其中混合注意力机制用于提取病灶部位的特征；本发明设计的ROC模块组成长短连接结构，使得模型减少深层特征和浅层特征之间融合时存在的语义鸿沟；本发明通过对基于Dice系数的损失函数进行改进，使得模型在进行多尺度目标特征提取时，加强困难样本的特征学习，使分割网络更适合多尺度目标分割任务。

附图说明

图1为本发明的改进的AU-Net网络结构示意图；

图2为本发明的混合注意力机制模块图；

图3为本发明的位置注意力机制模块图；

图4为本发明的通道注意力机制模块图；

图5为本发明的八度卷积计算过程图；

图6为本发明的残差八度卷积块结构图；

图7为本发明的检测过程图；

图8为现有技术的图像分割结果图；

图9为本发明与现有技术处理的结果比较图；

图10为本发明的y_pred的指数对分割的影响图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于改进的AU-Net网络的CT图像分割方法，如图7所示，该方法包括：获取待分割的脑CT图像，对获取的脑CT图像进行预处理；将处理好的图像输入到训练好的改进混合注意力机制网络AU-Net中进行图像识别分割，得到分割后的CT图像；根据分割后的脑CT图像识别脑出血区域；改进的AU-Net网络包括编码器、解码器以及跳跃连接部分。

如图1所示，本发明的改进的AU-Net网络结构包括：编码器，解码器和用于将深层特征和浅层特征进行特征融合的跳跃连接部分；所述编码器由重复的卷积层和池化层组成，用于提取输入图像的浅层特征和深层特征；所述解码器由转置卷积层构成，用于恢复特征图的尺寸；所述跳跃连接部分为残差八度卷积模块ROC和混合注意力机制模块组成。

编码器由4组重复的3重复的卷积层和3层2卷2的最大池化下采样组成；编码器在进行图向编码采样过程中，每组卷积层进行2次卷积运算。

解码器由3层3×3的转置卷积和1层1×1的普通卷积组成；解码器在对特征图进行恢复的过程中，每次转置卷积完成后还对特征图进行2次3×3的普通卷积。

在图像分割过程中，注意力机制可以使得模型能更加专注于目标区域的特征学习。注意力机制分为位置注意力机制、通道注意力机制以及混合注意力机制；位置注意力机制关注输入特征图的感兴趣位置处的特征信息；通道注意力机制表现为对不同的特征通道的关注程度；如图2所示，本发明采用混合注意力机制，混合注意力机制是将位置注意力机制和通道注意力机制进行融合，表征了位置和通道两方面的特征信息。

如图3所示，位置注意力机制模块中，通过对图像中特定的位置进行加权累积，根据聚合后的位置信息更新权重；权重的大小由位置之间的特征相似性决定。具体的过程为：将一张尺寸大小为C×H×W的特征图A输入到位置注意力机制模块中，分别经过卷积、归一化(BN)、ReLU函数激活后得到了特征图B、C、D；其中特征图B和特征图C的尺寸大小为C×H×W。将特征图B、C、D进行尺寸重组，得到大小均为C×N(N＝H×W)的特征矩阵B1、C1和D1；将特征图B1进行转置操作后与C1进行相乘，最后经过softmax函数后得到位置注意力特征矩阵S∈N×N，其公式为：

其中，s_ji表征了位置i和位置j之间的关联程度，越大越相关；B1_i表示特征图B1中的每个特征向量，C1_j表示特征图C1中的每个特征向量，N表示特征位置注意力特征矩阵S的宽度。

将位置注意力特征矩阵S与特征图D1相乘，得到特征矩阵D2，将D2进行特征重组(大小为C×H×W)后赋予一个α权值；将赋予权重后的特征矩阵与输入的特征图相加，得到最终的位置注力机制特征图E∈C×H×W，位置注力机制特征图的公式为：

其中，C表示特征通道数，H表示特征矩阵的高度，W表示特征矩阵的宽度，α表示权值，α初始的时候为0，随着网络的学习赋予更多的权重；D2_i表示特征图D2中的每个特征向量，A_j表示输入的特征图。

通道注意力机制模块与位置注意力机制模块相似，但是通道注意力机制模块聚合的是不同通道的特征，选择性的给通道赋予不同的权重。如图4所示，对于输入的特征图A∈C×H×W采用通道注意力矩阵公式计算特征图的通道注意力矩阵X∈C×C；通道注意力矩阵公式为：

其中，x_ji表示通道i对通道j的影响，C表示特征矩阵通道数。将特征图A重组后的矩阵与通道注意力矩阵X相乘，对相乘后的矩阵进行重组和分配一个β权重，再与原始的特征图A相加，得到最终输出的通道注意力机制特征图E∈C×H×W，得到通道注意力机制特征图的公式为：

八度卷积(Octave Convolution，OctConv)是通过对图像中的低频部分压缩实现加速卷积运算的目的，具有占用内存小，性能高的特点。如图5所示，八度卷积的计算过程包括：对于输入的特征图X∈R^c×h×w，其中h和w表示空间维度，c表示特征通道数；将输入的特征图X分解为X＝{X^H,X^L}，其中，X^H∈R^{(1-α)c×h×w}为高频部分对应边缘等细节信息，X^L∈R^{αc×(h/2)×(w/2)}为低频部分对应在图像中平滑的结构；在进行八度卷积计算过程中，将α设置为0.5，即低频特征图为高频特征图分辨率的一半，则卷积核W可分解为{W^H,W^L}，其中，W^H＝{W^H ^→H,W^L→H}，W^L＝{W^L→L,W^H→L}分别与X^H和X^L进行卷积。将经过八度卷积后输出的特征图Y分解为{Y^H,Y^L}，其中Y^H＝Y^H→H+Y^L→H，Y^L＝Y^L→L+Y^H→L；Y^H→H，Y^L→L表示频率内(高频到高频，低频到低频)信息更新，Y^L→H，Y^H→L表示频率间(低频到高频，高频到低频)信息交换，具体的公式为：

Y^H＝f(X^H；W^H→H)+upsample(f(X^L；W^L→H),2)

Y^L＝f(X^L；W^L→L)+f(pool(X^H,2)；W^H→L)

其中，f(X^H；W^H→H)表示输入的高频分量和卷积核的高频信息相卷积，X^H表输入的高频分量示，W^H→H表示卷积核中高频到高频部分的信息更新，upsample(.,2)表示对输出进行步长为2的平均池化，X^L表示输入的低频分量，W^L→H表示卷积核中低频分量到高频分量的信息更新，W^L→L表示卷积核中低频分量到低频分量的信息更新，pool(X^H,2)表示对输入进行步长为2的平均池化，W^H→L表示卷积核中高频分量到低频分量的信息更新。

在进行特征提取的时候，低频分量在一些特征图中是冗余的，因此OctConv使用平均池化的方式对低频分量进行压缩，卷积核尺寸为2×2，步长为2，池化操作可以使得特征图宽度减半，实现加速卷积的目的，其过程如图5所示。

U-Net网络的跳跃连接部分使用的长连接，会导致高层语义和底层语义在融合的时候产生语义鸿沟问题。为此，本文将在长连接的基础上融合短连接，可以弥补长连接采用的直接拼接的方式在语义融合上的不足。为了避免引入过多的参数而导致计算量增大，受残差学习和八度卷积的启发，本发明提出残差八度卷积(ROC)模块，用于跳跃连接的短连接部分，其结构如图6所示。

进行模型训练的具体过程包括：

在进行模型训练过程中，需要计算整个模型的最小损失函数，使得模型趋于收敛；本发明采用Dice损失函数计算模型的损失，Dice系数可以衡量两个样本之间的重叠程度，其表达式为：

其中，TP表示像素预测值为1(真)，实际标签值为1(真)，FP表示像素预测值为1(真)，实际标签值为0(假)，FN表示像素预测值为0(假)，实际标签值为1(真)，X表示预测结果，Y表示真实标签值，∩表示图像的逐像素相乘。

Dice系数表达式中的TP,FP,FN值由下表中的数据确定，即：

表2分类结果的混淆矩阵

则有，Dice损失函数的具体形式为：

其中，y_pred∈(0,1)为预测像素的概率值，y_true∈{0,1}为实际的标签值。

当预测的像素在目标区域的时候才有效。即只有当y_true＝1时y_predy_true才为非零值，即L_Dice的分子只与正样本有关。当分割区域中存在小目标时，y_pred会偏低，属于困难样本。为了对小目标有更好的分割效果，将损失函数改为：

其中，y_pred表示像素预测值，y_true表示像素实际标签值，pix表示逐像素运算。

改进的损失函数，加重了对困难样本的学习惩罚。在相同的y_pred和y_true情况下，L会比L_Dice更大，此时网络为了最小化损失函数，会继续进行学习，这样加大了对困难样本的学习力度。

如图8所示，采取本发明所提出的网络模型进行脑出血CT图像分割的结果，(a)-(c)为脑出血CT图像中常见的病例。图8中第一列为输入到分割网络的脑出血CT图像，第二列为Ground-Truth，第三列为AU-Net+的分割结果。比较Ground-Truth和AU-Net+的分割结果可以分析出，不管是脑出血CT图像中的出血部位的位置、大小如何，本发明所提出的AU-Net+模型有较好的分割效果。

如图9所示，图9(a)为输入到神经网络的原图，(b)为Ground-Truth，(c)-(g)分别为各个方法的分割效果图。通过对比图9可以发现，如果待分割图像中存在大目标和小目标区域，即目标区域表现为多尺度特性时。本发明所提出的方法较其他方法在大目标的分割上更优。特别的，对于小目标的分割(图中的红圈部分)有明显的优势，更好的融合了深层和浅层的特征，增强了小目标区域的特征表达，分割结果与Ground-Truth最为接近。

如图10所示，令y_pred的指数分别为1,2,3,4，由于y_pred的指数为3的时候准确率最高，但是指数太大反而会导致mIoU指标下降，随着指数增大分割耗费的时间有所增多。综合y_pred的指数对分割的影响，本发明将y_pred的指数设置为3。

最终的结果对比如表4所示：

表4实验结果对比

根据上述表4中的对比结果可知本发明的分割结果比U-Net、Attention U-Net、UNet++以及CE-Net的分割效果更好，结果更精确。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进的AU-Net网络的CT图像分割方法，其特征在于，获取待分割的脑CT图像，对获取的脑CT图像进行预处理；将处理好的图像输入到训练好的改进的AU-Net网络中进行图像识别分割，得到分割后的CT图像；根据分割后的脑CT图像识别脑出血区域；改进的AU-Net网络包括编码器、解码器以及跳跃连接部分；

所述解码器由转置卷积层构成，用于恢复特征图的尺寸；

所述跳跃连接部分为残差八度卷积模块ROC和混合注意力机制模块组成；

对改进的AU-Net网络进行训练的过程包括：

S4：跳跃连接部分的ROC结构将提取的浅层特征传递至混合注意力机制模块；所述步骤S4中残差八度卷积模块ROC还包括分别对图像的高频信息和低频信息进行处理，其中，高频信息处理公式为：

Y^H＝f(X^H；W^H→H)+upsample(f(X^L；W^L→H),2)

低频信息处理公式为：

Y^L＝f(X^L；W^L→L)+f(pool(X^H,2)；W^H→L)

其中，f(X^H；W^H→H)表示输入的高频分量和卷积核的高频信息相卷积，X^H表示输入的高频分量，W^H→H表示卷积核中高频到高频部分的信息更新，upsample(.,2) 表示对输出进行步长为2的平均池化，X^L表示输入的低频分量，W^L→H表示卷积核中低频分量到高频分量的信息更新，W^L→L表示卷积核中低频分量到低频分量的信息更新，pool(X^H,2)表示对输入进行步长为2的平均池化，W^H→L表示卷积核中高频分量到低频分量的信息更新；

S5：混合注意力机制模块对目标区域特征和通道特征进行选择，并将选择后的特征传递至编码器的输出层；

所述步骤S5中还包括采用混合注意力机制模块对位置注意力特征矩阵和通道注意力特征矩阵进行组合，组合的公式为：

M＝E_P+E_T

其中，M表示混合注意力机制模块输出，E_P表示位置注意力特征矩阵，E_T表示通道注意力特征矩阵，E_Pj表示E_P中的每一个位置加权注意力特征向量，α表示超参数权重，H表示输入特征图的高度，W表示输入特征图的宽度，s_ji表示位置i和位置j之间的关联程度，D2_i表示特征图D2中的每个特征向量，A_i和A_j表示输入特征图中的每一个特征向量，E_Tj表示E_T中的每一个通道加权注意力特征向量，β表示超参数权重，C表示特征矩阵通道数，x_ji表示通道i对通道j的影响，B1_i表示特征图B1中的每个特征向量，C1_j表示特征图C1中的每个特征向量；

S9：根据误差结果计算模型的损失函数，并将误差通过反向传播算法输入到模型，更新在网络提取特征时候的卷积核权重和各模块中的参数，当损失函数最小时，完成模型的训练；改进的AU-Net网络的损失函数的表达式为：

其中，y_pred表示像素的预测值，y_true表示像素的真实标签值，pix表示逐像素遍历。

2.根据权利要求1所述的一种基于改进的AU-Net网络的CT图像分割方法，其特征在于，对获取的脑CT图像进行预处理的过程包括：对数据进行去噪和增强处理，去噪增强处理的过程包括对图像进行先腐蚀后膨胀运算，得到增强图像。

3.根据权利要求1所述的一种基于改进的AU-Net网络的CT图像分割方法，其特征在于，残差八度卷积模块ROC的结构由三个权重层和一个残差连接层组成；权重层由OctConv-BN-ReLu三部分组成，通过设置α_in，α_out来得到不同频率分量的特征；采用权重层1对输入的特征图进行处理，得到输入特征图的高频分量和低频分量；权重层2采用OctConv网络进行特征提取；权重层3将高频信息和低频信息融合，得到融合后的特征；采用残差连接对各个权重层进行连接，进一步强化特征传播，提升网络性能；其中，OctConv表示八度卷积层，BN表示批量归一化层，ReLu表示激活函数层，α_in表示输入通道低频比例，α_out表示输出通道低频比例。