CN113592794B

CN113592794B - 基于混合注意力机制的2d卷积神经网络的脊椎图分割方法

Info

Publication number: CN113592794B
Application number: CN202110808496.5A
Authority: CN
Inventors: 侯文广; 刘琳; 范信鑫; 刘菲
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2024-02-13
Anticipated expiration: 2041-07-16
Also published as: CN113592794A

Abstract

本发明属于医学图像处理技术领域，公开了一种基于混合注意力机制的2D卷积神经网络的脊椎图分割方法，包括以下步骤：(1)建立训练集；(2)对待分割的原始脊椎CT图像进行预处理；(3)建立带有混合注意力机制的2D卷积神经网络，并训练；(4)将待分割样本输入至网络，即可输出得到脊椎CT图像分割结果。本发明通过对分割方法的整体流程设计、关键的卷积神经网络的结构及配合作用方式，以及相应分割系统的功能模块设计等进行改进，与现有技术相比能够有效解决脊椎CT图像自动化分割的问题，能够高效地将脊椎区域从脊椎CT图像中提取出来。

Description

基于混合注意力机制的2D卷积神经网络的脊椎图分割方法

技术领域

本发明属于医学图像处理技术领域，更具体地，涉及一种基于混合注意力机制的2D卷积神经网络的脊椎图分割方法，能够对脊椎CT图像进行分割。

背景技术

脊柱是人体中最复杂的承载结构。医学研究结果表明,脊柱的异常会缩短人的寿命。近年来，随着人们工作生活压力的加大，脊椎疾病有日益增长的趋势，而CT是一种行之有效的检测脊椎疾病的影像方式。在临床实践中，由于医生手动地分割脊椎是非常耗时的且代价昂贵的，同时手动分割结果也非常的取决于医生的经验和主观，因此，临床上非常需要一种全自动分割脊椎CT图像的方法及系统。

脊椎CT图像分割实际上是一个二分类任务，其目的是将脊椎CT图像中脊椎区域分割出来，可用于识别感兴趣区域、研究椎骨解剖结构、测量脊椎弯曲程度、观察脊椎数目异常、形态异常、为脊椎矫正术前提供定位等。如何快速精确地分割出脊椎区域是脊椎CT图像分割的难点问题。

针对脊椎CT图像分割问题，国内外学者提出了很多的方法，传统的脊椎CT图像分割方法主要分为基于边缘梯度的分割方法、基于阈值的分割方法等。基于边缘梯度的分割方法，是假设分割目标变换灰度不连续，这种灰度的不连续就能够使用灰度的一阶导数和二阶导数来进行检测，并且结合Hough边缘检测，指定特定的滤波器和阈值，对整幅图像应用该滤波器来判断该滤波核结果是否高于设定的阈值，如果高于阈值则保留作为图像的边缘，如果低于该阈值则判定为非边缘，然而这种方法对噪声比较敏感、同时滤波器只能够检测特定方向的边缘，且不能够很好的保证边缘的连续性。基于阈值的分割方法假设图像的像素性质分布是有规律的，通过设定阈值来对像素值进行分类，这种方法是非常简单高效的，但由于其只对像素值进行了计算，从而忽略了空间位置信息之间的约束，所以该类方法鲁棒性较差，只能够适用于一些固定的图像场景。

近年来，随着GPU的快速发展，深度学习能够广泛地应用于市场，随着其发展，深度学习已经在图像分类及目标检测领域取得了重大的进展，其表现已经超过了传统方法，而脊椎CT图像分割问题本质上也就是一个二分类问题，将图像分为脊椎区域和非脊椎的背景区域。目前也有将深度学习应用在脊椎CT图像上的例子，但受限于预处理不恰当、网络学习能力不高、数据集样本较少等问题，导致分割精度不够高。所以设计一种高效高精度的脊椎CT图像分割的方法是非常有价值的。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供一种基于混合注意力机制的2D卷积神经网络的脊椎图分割方法，其中通过对分割方法的整体流程设计、关键的卷积神经网络的结构及配合作用方式，以及相应分割系统的功能模块设计等进行改进，与现有技术相比能够有效解决脊椎CT图像自动化分割的问题，能够高效地将脊椎区域从脊椎CT图像中提取出来。

为实现上述目的，按照本发明的一个方面，提供了一种基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，其特征在于，包括以下的步骤：

(1)建立训练集：

收集已知金标准分割图结果的脊椎CT图像，其中同时包含正常案例和脊椎弯曲病例；将这些脊椎CT图像的文件格式进行统一，同时，对这些脊椎CT图像进行感兴趣区域裁剪操作，并对裁剪后的图像进行直方图均衡及像素值归一化操作，从而得到训练集样本；

(2)对待分割的原始脊椎CT图像进行预处理：

针对待分割的原始脊椎CT图像，使其文件格式与所述训练集样本的文件格式保持一致，同时，对该脊椎CT图像进行感兴趣区域裁剪操作，并对裁剪后的图像进行直方图均衡及像素值归一化操作，从而得到待分割样本；

(3)建立带有混合注意力机制的2D卷积神经网络，所述混合注意力机制同时结合了空间注意力机制和通道注意力机制，能够分别通过计算空间权重矩阵和通道权重向量表达空间注意力和通道注意力，其中，所述空间权重矩阵的尺寸大小为H×W×1，H和W分别代表输入特征图的像素高度和像素宽度；所述通道权重向量的尺寸大小为1×1×C，C表示输入特征图的通道数；通过将输入特征图与所述空间权重矩阵相乘能够实现空间注意力机制，从而对输入特征图中的空间信息进行计算；通过将输入特征图与所述通道权重向量相乘能够实现通道注意力机制，从而对输入特征图中的通道信息进行计算；

然后，利用所述步骤(1)得到的训练集样本、以相应的金标准分割图作为标注数据训练该卷积神经网络，使训练后的混合注意力机制的2D卷积神经网络能够筛选出脊椎所对应的特征，所述特征包括椎骨边缘、椎骨形状以及椎骨纹理中的至少一种；

(4)将所述步骤(2)得到的待分割样本输入至所述步骤(3)得到的训练好的带有混合注意力机制的2D卷积神经网络，即可输出得到脊椎CT图像分割结果。

作为本发明的进一步优选，所述步骤(3)中，所述带有混合注意力机制的2D卷积神经网络，包括依次设置的特征提取层、混合注意力机制模块、Encoder层和Decoder层，其中，

所述特征提取层由5层2D卷积层组成，其中，任意一个所述2D卷积层的内核尺寸为3，步长为1，填充为1，卷积核个数为32，并接连有激活函数；并且，这5层2D卷积层中，上一层的输出是作为下一层的输入；

所述混合注意力机制模块用于以所述特征提取层的输出作为输入，利用卷积操作以及矩阵内积操作实现对空间注意力权重以及通道注意力权重的计算，然后输出与混合注意力机制模块输入相同尺寸大小的特征图；所述混合注意力机制模块共有13层细节结构，上一层细节结构的输出是作为下一层细节结构的输入，其中：

第1层细节结构为输入层，包括1个卷积层和1个滤波器，该卷积层的卷积核尺寸为3×3、步长为1、填充为1；

第2层细节结构包括1个卷积层和1个滤波器，该卷积层的卷积核尺寸为3×3、步长为1、填充为1；

第3层细节结构为激活层，使用softmax作为激活函数；

第4层细节结构为外积层；

第5层细节结构包括1个卷积层和C个滤波器，其中，C为输入特征图的通道数；该卷积层的卷积核尺寸为3×3、步长为1、填充为1；

第6层细节结构为激活层，使用softmax作为激活函数；

第7层细节结构为外积层；

第8层细节结构包括1个卷积层和1个滤波器，该卷积层的卷积核尺寸为3×3、步长为1、填充为1；

第9层细节结构包括1个卷积层和1个滤波器，该卷积层的卷积核尺寸为7×7，步长为1，填充为3；

第10层细节结构为激活层，使用softmax作为激活函数；

第11层细节结构为内积层；

第12层细节结构为加和层；

第13层细节结构为输出层；

所述Encoder包含依次相连的4层细节结构，每一层细节结构均由2个卷积神经块和1个下采样层顺序连接构成，其中，每个所述卷积神经块均由2D卷积网络和批归一化层构成，每个所述卷积神经块均用于输出特征图，所述特征图的数目即为通道数，该通道数是由所述2D卷积网络的卷积核个数决定，每个特征图用于表示脊椎CT图像中的一部分特征；

对于所述Encoder中任意一层细节结构，输入至该层细节结构的特征图经过这2个卷积神经块后再送入所述下采样层，并且经过所述下采样层时特征图的高度H和宽度W将分别缩小一半、特征图的通道数将增大一倍；

所述Decoder包含依次相连的4层细节结构和1个由sigmoid函数激活的卷积层，每一层细节结构均由1个上采样层和2个卷积神经块顺序连接构成；对于所述Decoder中任意一层细节结构，输入至该层细节结构的特征图经过所述上采样层再送入这2个卷积神经块，具体的：经过所述上采样层时特征图的高度H和宽度W将分别扩大一倍、特征图的通道数将减小一半，经过上采样层后的特征图与所述Encoder中各细节结构得到的相同尺寸的特征图相加后，再送入所述2个卷积神经块；

所述由sigmoid函数激活的卷积层，用于输出预测分割图。

作为本发明的进一步优选，所述步骤(1)中，所述已知金标准分割图结果的脊椎CT图像及其对应的金标准分割图均为三维图像，具体是先对这些三维图像进行切片处理，使所述脊椎CT图像切片得到系列二维脊椎CT图像、使所述金标准分割图切片得到系列二维金标准分割图，然后按预先设定的图像尺寸，对这些二维脊椎CT图像及二维金标准分割图进行裁剪；其中，对这些二维脊椎CT图像进行的是感兴趣区域裁剪，裁剪后的图像高度均为H₀、宽度均为W₀；对这些二维金标准分割图进行裁剪，使裁剪后的二维金标准分割图完全覆盖脊椎区域，裁剪后的图像高度均为H₀、宽度均为W₀；

所属步骤(2)中，所述待分割的原始脊椎CT图像同样为三维图像，具体是先对所述待分割的原始脊椎CT图像进行切片处理，使所述待分割的原始脊椎CT图像切片得到系列二维待分割的脊椎CT图像，然后按预先设定的图像尺寸，对这些二维待分割的脊椎CT图像进行感兴趣区域裁剪操作，裁剪后的图像高度均为H₀、宽度均为W₀。

作为本发明的进一步优选，所述步骤(1)中，所述像素值归一化具体是将图像灰度值归一化至0～1区间内。

作为本发明的进一步优选，所述步骤(3)中，所述训练是每次输入若干个随机样本，每轮训练m次，共训练n轮，m和n为预先设定的整数；优选的，所述训练所采用的学习率大小设置为0.001。

作为本发明的进一步优选，所述步骤(3)中，损失函数为Dice损失函数。

作为本发明的进一步优选，所述步骤(1)中，所述训练集样本所对应的脊椎CT图像还通过旋转、伽马变换、添加随机噪声中的至少一种方式进行数据增广，在扩大训练集的数据量；

所述步骤(3)中，利用所述步骤(1)得到的训练集样本进行训练，具体是采用随机抽样训练策略利用所述步骤(1)得到的训练集样本进行训练。

按照本发明的另一方面，本发明提供了一种基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割系统，其特征在于，包括以下功能模块：

图像预处理功能模块：用于针对待分割的原始脊椎CT图像，使其文件格式与训练集样本的文件格式保持一致，同时，对该脊椎CT图像进行感兴趣区域裁剪操作，并对裁剪后的图像进行直方图均衡及像素值归一化操作，从而得到待分割样本；

带有混合注意力机制的2D卷积神经网络功能模块：所述混合注意力机制同时结合了空间注意力机制和通道注意力机制，能够分别通过计算空间权重矩阵和通道权重向量表达空间注意力和通道注意力，其中，所述空间权重矩阵的尺寸大小为H×W×1，H和W分别代表输入特征图的像素高度和像素宽度；所述通道权重向量的尺寸大小为1×1×C，C表示输入特征图的通道数；通过将输入特征图与所述空间权重矩阵相乘能够实现空间注意力机制，从而对输入特征图中的空间信息进行计算；通过将输入特征图与所述通道权重向量相乘能够实现通道注意力机制，从而对输入特征图中的通道信息进行计算；

该带有混合注意力机制的2D卷积神经网络功能模块经训练能够筛选出脊椎所对应的特征，所述特征包括椎骨边缘、椎骨形状以及椎骨纹理中的至少一种；从而用于以所述图像预处理功能模块得到的所述待分割样本作为输入，输出脊椎CT图像分割结果。

作为本发明的进一步优选，所述带有混合注意力机制的2D卷积神经网络功能模块，包括依次设置的特征提取层、混合注意力机制模块、Encoder层和Decoder层，其中，

第3层细节结构为激活层，使用softmax作为激活函数；

第4层细节结构为外积层；

第6层细节结构为激活层，使用softmax作为激活函数；

第7层细节结构为外积层；

第10层细节结构为激活层，使用softmax作为激活函数；

第11层细节结构为内积层；

第12层细节结构为加和层；

第13层细节结构为输出层；

所述由sigmoid函数激活的卷积层，用于输出预测分割图。

通过本发明所构思的以上技术方案，与现有技术相比，具有以下有益效果：

(1)本发明提出了一种基于混合注意力机制的2D卷积神经网络，先经过特征提取层对背景和脊椎目标区域进行初步特征提取，之后通过混合注意力机制对这些特征进行注意力权重计算，便于之后Encoder能够更加关注脊椎目标区域，最后经过Decoder,从而高效地将脊椎区域从脊椎CT图像中提取出来。

带有混合注意力机制的2D卷积神经网络，不仅仅使用了卷积神经网络对图像的特征提取层，并且通过混合注意力机制有效地对通道信息和空间信息进行了权重计算。这也就表明了，利用混合注意力机制的2D卷积神经网络，能够在进行脊椎CT图像的分割时，除了能够提取特征以外，还能够有选择性地选取合适的特征。例如在CT图像中，脊椎椎骨通常会连接着肌肉韧带，在分割时，就希望学习到椎骨的特征，而肌肉韧带的特征希望被忽略掉，因此通过混合注意力机制的设计，配合训练集的训练，就能够给椎骨的特征赋予更大的权重，给肌肉、韧带等非椎骨的特征赋予较小的权重，从而能够很好的将椎骨和肌肉韧带分离。利用本发明方法及系统预测得到的脊椎分割图，能够保证边缘的连续性，通过卷积神经网络学习到图像中的不同特征(如椎骨边缘、椎骨形状、椎骨纹理等)，对于各类边缘都能够进行检测。

本发明中训练好的带有混合注意力机制的2D卷积神经网络，能够预测脊椎CT图像经裁剪后得到的子图像的分割图(即，输入为尺寸经裁剪的脊椎CT图像，输出即为预测分割图)。不同于现有技术中为实现分割使用的3D网络，本发明所使用的带有混合注意力机制的2D卷积神经网络，其二维网络结构在保证高度的精准度的情况下，能够在训练以及预测时占用更少的显存。

(2)本发明还利用对脊椎CT图像的预处理策略，能够将不同格式的脊椎CT图像统一格式存储，对图像的大小进行裁剪，对像素值进行归一化，剔除异常点。

(3)本发明在训练过程中优选使用数据增广和图像增强的策略，使网络能够具有更好的泛化能力，且更易于网络提取脊椎各类特征。解决了极端情况时分割效果不佳等问题，稳定了训练过程。

本发明所提出的基于混合注意力机制的2D卷积神经网络，相较于使用常用的卷积神经网络和其他注意力机制的2D卷积神经网络而言，本发明利用了初步特征提取层以及混合注意力模块，能够从通道的信息和空间的信息中更好地分割脊椎图像(能够更好地利用对分割有利的特征)。且相较于使用3D卷积神经的网络结构，本发明占用更小的内存。

此外，本发明还优选使用Dice指标作为代价函数，利用Dice指标能够计算出预测图与金标准图之间的相似度；并且，在网络最后一层优选使用sigmoid函数对分割结果进行了归一化处理，可以实现预测图与金标准图(已进行了归一化处理)两者的数据统一。

综上，本发明分割方法及对应系统与已有的脊椎CT图像分割方法相比，有着更好的分割能力，具有更好的预测性能。

附图说明

图1为本发明的基于混合注意力机制的2D卷积神经网络结构图。

图2为本发明的特征提取层。图2中示出的5个方块，每个方块均代表一次卷积和激活层，方块上方的数字则表示其中卷积层的卷积核个数。

图3为本发明的混合注意力机制模块的细节结构及对应处理流程示意图。图3中所示的H×W×C，其中C代表的是在网络学习过程中所提取处的特征图的个数。

图4为本发明的Encoder层和Decoder层的整体结构示意图。图4中示出的↓均代表下采样，↑均代表上采样；Encoder层对应图4中示出的下采样阶段，Decoder层是图4中示出的上采样阶段。图4中示出的阿拉伯数字为本发明实施例中所采用的Encoder层和Decoder层内相应卷积层的卷积核个数。

图5和图6为不同测试集的脊椎图像(Clean Image，由MICCAI 2019 Spinechallenge提供)、真实标签图像(label Image，即，金标准分割图，同样由MICCAI2019Spine challenge提供)和利用本发明方法得到的预测分割图(Predict Image)。

图7为本发明实施例所对应的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

总的来说，如图7所示，本发明实施例中基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，包括以下步骤：

(S1)数据集预处理阶段(即图7中所示的“数据处理”)，包括脊椎CT图像格式的统一、图像大小的裁剪、自适应直方图均衡等现有技术已知操作。当然，除了自适应直方图均衡外，也可以采用现有技术中已知的其他直方图均衡方法。

例如，可通过各大医学图像处理竞赛网站，获取公开脊椎CT数据集，其中包括raw格式、nii格式的脊椎CT数据；为了避免由于数据集的差异导致的不必要的错误，可预先对数据进行筛选，筛选标准可以为脊椎图像不出现断层现象以及图像显示清晰，从而筛选出其中可用数据，并对其中不含有标签数据的图像进行标注。对图像的大小进行裁剪后(裁剪后对应的目标二维图像尺寸可预先设定，高度可设定为H₀、宽度可设定为W₀)，可对该类数据进行分配训练集和测试集，并利用医学图像读取函数读入脊椎CT图像数据，分别将图像与标签读入大小为H×W×D的矩阵X和Y中(H和W的大小可预先设定，也即，H₀和W₀)，矩阵X中各元素等于脊椎CT图像的像素值，矩阵Y中元素等于脊椎CT图像元素所对应的类别，H为脊椎CT图像的高，W为脊椎CT图像的宽，D为脊椎CT图像的切片数；然后对矩阵X进行图像裁剪、图像像素归一化、自适应直方图均衡操作；然后将三维数据矩阵X(H×W×D)和矩阵Y(H×W×D)按切片维度拆分为多个二维数据(H×W×1)，再利用Tensorflow将二维数据转换为字节格式存储在TFRecord文件中，以方便进行后续的二维分割操作。

对上述图像裁剪、图像像素归一化、自适应直方图均衡操作解释如下：

图像裁剪过程中对原图像进行感兴趣区域裁剪操作，包括去除图像的黑边以及异常数据区域(如，去除其中可能存在骨钉等遮挡物带来的异常数据区域)、尽可能减少多余像素。通过对图像进行感兴趣区域的裁剪，能够排除对训练网络帮助不大的区域。

图像归一化操作将脊椎CT图像的灰度值映射到0～1区间内，防止脊椎CT图像数据灰度值过大，不利于神经网络的训练；

自适应直方图均衡操作主要是针对部分图像边界不够清晰等情况，进行该操作后可使图像边缘梯度更加明显。

(S2)网络训练阶段，包括基于注意力机制的卷积神经网络的设计、代价函数的设计和训练过程中的数据增广及随机抽样策略。

训练网络时，使用Dice损失函数进行训练，网络每一次训练步骤(一次网络参数更新)均通过随机抽样策略随机生成输入的训练样本，并对这些样本进行旋转、伽马变换、添加随机噪声中的至少一种方式进行数据增广，每轮训练m次，共训练n轮，学习率大小设置可为0.001(m、n均为整数，它们的取值可预先设定)。

(S3)网络预测阶段，利用网络预测验证集图像的分割图。

例如，可以使用训练好的模型参数对验证集图像进行预测，并且生成脊椎CT图像分割图。

(S4)模型评估阶段，包括测试数据整理、测试数据预测及其指标的分析。

具体的：

实施例采用Python平台基于Tensorflow库实现，使用Python中SimpleITK医学图像图像处理库和Python-OpenCV作为实施基础。调用SimpleITK中的医学图像读取函数，将脊椎CT图像文件和脊椎CT图像对应的金标准分割图文件输入，分别读入大小为H×W×D的矩阵X和Y中，矩阵X中各元素为脊椎CT图像的像素值(即灰度值)，矩阵Y中各元素为脊椎CT图像元素所对应的类别(类别包括脊椎区域、背景区域两种；也即基于金标准分割图得到的脊椎区域和非脊椎区域；例如，该矩阵Y是一个二值矩阵，可以用"1"表示该点为脊椎区域，用"0"表示该点为背景区域)，H为脊椎CT图像的高，W为脊椎CT图像的宽，D为脊椎CT图像的切片数(即，脊椎CT图像在空间Z轴上的断层数)；然后对矩阵X进行图像裁剪、图像像素归一化、自适应直方图均衡操作；然后将三维数据矩阵X(H×W×D)和矩阵Y(H×W×D)按切片维度拆分为多个二维数据(H×W×1)，再利用Tensorflow将二维数据转换为字节格式存储在TFRecord文件中，以方便进行后续的二维分割操作。SimpleITK和Python-OpenCV作为医学图像处理库为本技术领域的公知技术，在此不做赘述。

实施例中，基于矩阵X对脊椎CT图像和基于矩阵Y对脊椎金标准分割图进行如下操作：

(1)将不同格式的脊椎CT图像使用Tensorflow统一存储为TFRecord文件中：

步骤(1)中具体操作为：使用Python-OpenCV图像处理库对矩阵X和矩阵Y进行图像大小的裁剪(例如，可分别对矩阵X和矩阵Y截取384像素×384像素×D的一个区域)，然后再利用Python-OpenCV图像处理库对矩阵X和矩阵Y进行自适应直方图均衡和数据灰度增强等现有技术已知操作，再利用Python-Numpy矩阵处理库对矩阵X和矩阵Y进行归一化操作。然后再利用Tensorflow将矩阵X和矩阵Y转换为字节格式存储在TFRecord文件中，以方便进行后续的二维分割操作。

原始脊椎CT图像及金标准分割图的每一个样本均为三维图像，为了进行二维分割，要对三维图像进行切片得到二维图像，如：原始脊椎CT图像及金标准分割图尺寸为h(原始三维图像的高度height)×w(原始三维图像的宽度width)×D(原始三维图像切片数)，将其分别切片为一个个尺寸为H₀×W₀的二维图像(H₀为预先设定的384像素，W₀为预先设定的384像素)，过程中保证切片后的原始脊椎CT二维图像与金标准分割图二维图像的对应关系；

(2)设计带有混合注意力机制的2D卷积神经网络：

如图1所示，该2D卷积神经网络包括特征提取模块、混合注意力模块、Encoder层-Decoder层。通过在网络Encoder、Decoder之前利用特征提取层初步提取特征，并利用混合注意力模块筛选出脊椎所对应的特征，如椎骨边缘、椎骨形状以及椎骨纹理等。该混合注意力机制是结合了空间注意力机制和通道注意力机制，在混合注意力机制中分别通过计算空间权重矩阵和通道权重向量实现空间注意力和通道注意力。该空间权重矩阵尺寸大小为H×W×1，其中H和W分别是输入特征图的高度和宽度；通道权重向量尺寸大小为1×1×C，其中C为输入特征图的通道数。通过输入特征图与空间权重矩阵相乘实现空间注意力机制，对特征图中的空间信息进行计算；输入特征图与通道权重向量相乘实现通道注意力机制，对输入特征图中的通道信息进行计算。并可进一步利用所述步骤(1)得到的训练集样本、以相应的金标准分割图作为标注数据训练该神经网络。

实施例中，2D卷积神经网络的设计过程包括：

①设计浅层特征提取层，如图2所示，采用5层卷积神经网络进行特征提取，每层卷积神经网络可采用32个3×3卷积核，激活函数均为relu函数，步长设置为1，填充设置为1，得到与输入图像尺寸相同的32个特征图；

②设计混合注意力机制模块，如图3所示，输入为浅层特征提取层的32个特征图，其大小为H×W×32，其中H为脊椎CT图像的高，W为脊椎CT图像的宽，以下称之为原始输入特征图。原始输入特征图经过1个3×3的卷积层得到大小为H×W×1的特征层，经过SoftMax层对特征进行概率计算并将输出转为大小为HW×1×1的向量，再与原始输入特征图进行内积运算并送入SoftMax层得到1×1×32的权重向量，记为ω₁，其中ω₁为通道数权重向量。ω₁再与原始输入特征图进行内积运算后就完成了通道注意力机制的正向学习步骤，再送入7×7的卷积层并经SoftMax函数激活后得到H×W×1的特征图map₁，此map₁为空间权重矩阵。map₁和原始输入特征图进行点乘后即完成了空间注意力机制的正向学习步骤，然后再将点乘后的结构与ω₁相点乘，就将空间注意力机制与通道注意力机制结合起来，然后与输入相加得到H×W×32的特征图，为混合注意力机制模块的输出。

③设计Encoder和Decoder，如图4所示。左侧的Encoder包含4层网络结构，每一层由1个卷积神经块和1个下采样层构成：每个卷积神经块包含两个卷积块，每个卷积块由2D卷积网络、批归一化层以及激活函数层构成；经过下采样层时特征图尺寸H、W分别缩小至一半，特征图通道数增大一倍，下采样层输出的特征图输入到下一尺寸的卷积神经块中。右侧的Decoder同样包含4层网络结构，每一层由1个上采样层和1个卷积神经块构成：上采样层处理前一尺寸的输出特征图，经过上采样层时特征图尺寸H、W分别扩大一倍，特征图通道数减小至一半；卷积神经块同Encoder中的卷积神经块类似，不同点在于，此处输入特征图为上采样层输出的特征与同尺寸的Encoder特征相加后的特征图。除此之外，Decoder还包含一个由sigmoid函数激活的卷积层,用于输出预测分割图。sigmoid激活函数也即逻辑函数，能够将数据进行归一化处理，其输出相当于对类别的预测概率值。

(3)可使用常用的数据增广的方式增加样本量以及采用随机抽样策略平衡样本的学习。

例如，可采用旋转、伽马变换、添加随机噪声等方式扩增数据集，并且同时提高网络模型的泛化能力。进一步的利用增广后的数据集进行网络训练。旋转图像能够使网络学习多种角度的脊椎信息，以便在针对脊椎弯曲程度较大的情况时依旧具有很高的精度；采用伽马变换来对脊椎灰度值进行调整，使网络能够针对由于脊椎不同阶段所处环境不同带来的灰度值差异带来的训练结果不佳的情况；添加随机噪声能模拟真实情况下有噪声的医学图像情况，提升网络对不同样本的鲁棒性。采用随机抽样的策略进行网络训练，这是因为，如果此步采用顺序抽样等方式，由于在顺序抽样中腰椎是最后学习的，会导致在训练结束时网络更加倾向于腰椎的形态。因此采用随机抽样的方式打乱各种形态椎骨的排序将更有利于网络泛化能力的提升。网络每轮随机送入1100个样本，共训练300轮，学习率大小设置为10e-3(即，10的-3次方)。

(4)使用训练好的网络对脊椎CT测试集进行预测，并得到分割图。

步骤(4)中，采用感兴趣区域裁剪及切片的方式，对测试集中的脊椎CT图像进行处理，然后送入训练好的网络，进行预测，得到分割图。

并且，在训练过程中可使用的计算指标包括分割精度Accuracy，Dice系数，精确度Precision以及召回率Recall。在测试阶段可仅使用Dice系数。

以下通过对比实验来验证本发明的有益效果：

本试验采用的数据集为Dataset 15数据集，Dataset 15数据集包含正常案例15套和脊椎弯曲案例5套，共20套，这些数据来源于MICCAI 2019Spine challenge，每套数据大小为512×512×552(该MICCAI 2019Spine challenge同时提供了金标准分割图)。选取正常案例中的10套和脊椎案例中的3套作为训练集，剩下的数据作为测试集。

分别采用FCN32s卷积神经网络(记为方法1，具体可参照现有技术，如：Long J,Shelhamer E,Darrell T.Fully Convolutional Networks for Semantic Segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,39(4):640-651.)、Unet卷积神经网络(记为方法2，具体可参照现有技术，如：Ronneberger O,Fischer P,Brox T.U-Net:Convolutional Networks for Biomedical ImageSegmentation[M].Springer,Cham,2015.)、Unet++卷积神经网络(记为方法3，具体可参照现有技术，如：Zhou Z,Siddiquee M,Tajbakhsh N,et al.UNet++:A Nested U-NetArchitecture for Medical Image Segmentation[C]//4th Deep Learning in MedicalImage Analysis(DLMIA)Workshop.2018.)、ResUnet卷积神经网络(记为方法4；该方法是在Unet的基础上，将卷积神经层更换为残差卷积模块)和本发明实施例方法进行目标检测。

脊椎CT图像分割方法评价指标：Dice系数。Dice系数时一种集合相似度度量指标，通常用于计算两个样本的相似度，值的范围0～1，分割结果最好时值为1，最差时值为0。

结果如表1所示。

表1对比试验结果(Dice系数)

	本发明方法	方法1	方法2	方法3	方法4
						Dataset 15	0.94	0.87	0.91	0.88	0.83

从表1可见，本发明方法在试验的测试集上具有更高的Dice系数，表明了本发明方法具有更强的分割能力，本发明方法与目前主流的方法1和方法2相比，有着明显的提升，与目前提出的新结构方法4也有明显的提升。

另外，如图5、图6所示，本发明方法在测试集上具有很好的预测分割能力。

不难看出，本发明方法与已有的脊椎CT图像分割方法相比，有者更好的分割能力，具有更好的预测性能，并为后续脊椎测量奠定了优良的基础。

本发明未详细阐述的部分均可参考相关现有技术。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，其特征在于，包括以下的步骤：

(1)建立训练集：

(2)对待分割的原始脊椎CT图像进行预处理：

(4)将所述步骤(2)得到的待分割样本输入至所述步骤(3)得到的训练好的带有混合注意力机制的2D卷积神经网络，即可输出得到脊椎CT图像分割结果；

并且，所述步骤(3)中，所述带有混合注意力机制的2D卷积神经网络，包括依次设置的特征提取层、混合注意力机制模块、Encoder层和Decoder层，其中，

第3层细节结构为激活层，使用softmax作为激活函数；

第4层细节结构为外积层；

第6层细节结构为激活层，使用softmax作为激活函数；

第7层细节结构为外积层；

第10层细节结构为激活层，使用softmax作为激活函数；

第11层细节结构为内积层；

第12层细节结构为加和层；

第13层细节结构为输出层；

所述由sigmoid函数激活的卷积层，用于输出预测分割图。

2.如权利要求1所述基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，其特征在于，

所述步骤(1)中，所述已知金标准分割图结果的脊椎CT图像及其对应的金标准分割图均为三维图像，具体是先对这些三维图像进行切片处理，使所述脊椎CT图像切片得到系列二维脊椎CT图像、使所述金标准分割图切片得到系列二维金标准分割图，然后按预先设定的图像尺寸，对这些二维脊椎CT图像及二维金标准分割图进行裁剪；其中，对这些二维脊椎CT图像进行的是感兴趣区域裁剪，裁剪后的图像高度均为H₀、宽度均为W₀；对这些二维金标准分割图进行裁剪，使裁剪后的二维金标准分割图完全覆盖脊椎区域，裁剪后的图像高度均为H₀、宽度均为W₀；

3.如权利要求1所述基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，其特征在于，所述步骤(1)中，所述像素值归一化具体是将图像灰度值归一化至0～1区间内。

4.如权利要求1所述基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，其特征在于，所述步骤(3)中，所述训练是每次输入若干个随机样本，每轮训练m次，共训练n轮，m和n为预先设定的整数。

5.如权利要求4所述基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，其特征在于，所述步骤(3)中，所述训练所采用的学习率大小设置为0.001。

6.如权利要求1-5任意一项所述基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，其特征在于，所述步骤(3)中，损失函数为Dice损失函数。

7.如权利要求1-5任意一项所述基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割方法，其特征在于，所述步骤(1)中，所述训练集样本所对应的脊椎CT图像还通过旋转、伽马变换、添加随机噪声中的至少一种方式进行数据增广，在扩大训练集的数据量；

8.一种基于混合注意力机制的2D卷积神经网络的脊椎CT图像分割系统，其特征在于，包括以下功能模块：

该带有混合注意力机制的2D卷积神经网络功能模块经训练能够筛选出脊椎所对应的特征，所述特征包括椎骨边缘、椎骨形状以及椎骨纹理中的至少一种；从而用于以所述图像预处理功能模块得到的所述待分割样本作为输入，输出脊椎CT图像分割结果；

并且，所述带有混合注意力机制的2D卷积神经网络功能模块，包括依次设置的特征提取层、混合注意力机制模块、Encoder层和Decoder层，其中，

第3层细节结构为激活层，使用softmax作为激活函数；

第4层细节结构为外积层；

第6层细节结构为激活层，使用softmax作为激活函数；

第7层细节结构为外积层；

第10层细节结构为激活层，使用softmax作为激活函数；

第11层细节结构为内积层；

第12层细节结构为加和层；

第13层细节结构为输出层；

所述由sigmoid函数激活的卷积层，用于输出预测分割图。