CN113947609A

CN113947609A - 深度学习网络结构及多标签主动脉夹层ct图像分割方法

Info

Publication number: CN113947609A
Application number: CN202111185726.3A
Authority: CN
Inventors: 秦姣华; 周青阳; 向旭宇; 谭云; 侯贵敏
Original assignee: Central South University of Forestry and Technology
Current assignee: Central South University of Forestry and Technology
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2022-01-18
Anticipated expiration: 2041-10-12
Also published as: CN113947609B

Abstract

本发明公开一种深度学习网络结构及多标签主动脉夹层CT图像分割方法，其中，深度学习网络结构利用序列特征金字塔注意模块，关联不同尺度的CT图像序列特征，通过探索切片间的相关性，指导当前图像分割。同时，在网络的解码器中联合空间注意力模块和通道注意力模块，加强模型对目标区域的定位精确度以及特征的利用率。其次，本发明的多标签主动脉夹层CT图像分割方法，针对主动脉夹层多标签分割的类间关系，设计了多标签分类器以及相应的二元混合损失函数，在端到端的网络上实现多标签分割。本发明的深度学习网络结构对主动脉夹层快速筛查、诊断和评估有巨大的临床应用价值。

Description

深度学习网络结构及多标签主动脉夹层CT图像分割方法

技术领域

本发明属于医学图像处理技术领域，具体涉及一种深度学习网络结构，以及应用该深度学习网络结构的基于多标签的主动脉夹层CT图像分割方法，CT图像分割方法用于针对人体胸腹腔CT扫描图像中主动脉夹层(AD)的分割提取。

背景技术

主动脉夹层(AD)是主动脉疾病中常见的灾难性病变。其发病原理是主动脉受到一些原因导致的撕裂，而主动脉内的血液会随着撕裂口进入主动脉中膜，使得中膜分离，形成主动脉夹层血肿^[1]。主动脉患者如果抢救不及时，极易出现死亡。数据显示，主动脉夹层48小时内死亡率高达50％^[2]。因此对主动脉夹层患者的迅速、及时和有效的诊断、评价和治疗是重中之重。

计算机层断扫描(CT)是一种快速、无创的主动脉夹层诊断方法，并且可以通过增强造影图像识别真假腔的剥离程度^[3]。但是以手工标记CT图像的夹层病变区域以及区分真假腔区域是一项非常繁琐且耗时的工作。此外，放射科医生对病变区域的标注容易受到主观因素的干扰，以及放射科医生水平的参差不齐，影响病情的诊断。CT图像自动标注主动脉夹层病灶位置对医生的诊断和治疗有极大的参考价值，并且能够很大程度节约诊断的时间，以免延误治疗。

目前，基于深度学习^[4][5]的图像分割算法已经被设计用来分割CT图像中的病灶。FCN[4](Fully Convolutional Networks)最早由Long等人提出用于图像分割。FCN没有全连接层，可以接受任意大小的图像输入。全卷积神经网络的提出为后续基于深度学习的图像分割算法奠定了基础。目前，最常用的医学图像分割网络结构是Ronneberger^[5]等提出的U-Net，结合相同数量的上采样和下采样层，使用远跳链接将深层的特征和浅层特征融合在一起，恢复下采样过程中丢失的空间信息，从而提高分割精度。随着网络结构的改进^[6]，将改进的网络结构应用到分割网络中也取得了不错的效果。例如：CE-Net^[7]将Resnet^[6]加入编码结构中，并且提出了密集空洞卷积模块，获取更多的高级信息，并保留空间信息，用于二维医学图像分割。Fan^[8]等将Res2Net^[9]引入网络，加入了并行部分解码器和显示边缘注意力来对边界建模，增强表达能力，并用于COVID-19的肺炎感染区域分割。Li^[10]等将空洞卷积引入网络，用于对心脏左心室分割。

尽管出现了许多用于医学图像分割的深度学习算法，但是，从CT图像中分割主动脉夹层的研究相对较少。由于存在以下几个难点：1)主动脉夹层的真假腔在主动脉中的位置变化多端，判定较为复杂，从单张CT上难以分辨出，需要结合CT序列图像进行分析，如图1所示。2)分割目标尺度变化较大，容易造成各类间的不平衡。比如内膜片形状细长，容易导致分割结果呈现假阴性，而肺部分割区域相对较大。3)主动脉夹层分割不同类别有重叠区域，并且存在类间关联。例如：主动脉区域和真假腔区域重叠，内膜片与真假腔区域重叠。医学图像分割算法和语义分割算法大都只考虑单标签分割或使用多阶段网络实现多标签分割^[11]，没有考虑端到端的模型实现多标签分割。

其中，所引用的文献列表如下：

[1]Yuan，X.，&Nienaber，C.A..(2019).Aortic dissection.Heart(BritishCardiac Society).

[2]Siegal，E.M..(2012).Acute aortic dissection.Journal of HospitalMedicine，42(1)，11-18.

[3]Hebballi，R.，&Swanevelder，J.(2009).Diagnosis and management ofaortic dissection.Continuing education in anaesthesia，critical care&pain，9(1)，14-18.

[4]Long，J.，Shelhamer，E.，&Darrell，T.(2015).Fully convolutionalnetworks for semantic segmentation.In Proceedings of the IEEE conference oncomputer vision and pattern recognition(pp.3431-3440).

[5]Ronneberger O，Fischer P，Brox T.U-net:Convolutional networks forbiomedical image segmentation[C].International Conference on Medical imagecomputing and computer-assisted intervention.Springer，Cham，2015:234-241.

[6]He，K.，Zhang，X.，Ren，S.，&Sun，J.(2016).Deep residual learning forimage recognition.In Proceedings of the IEEE conference on computer visionand pattern recognition(pp.770-778).

[7]Gu，Z.，Cheng，J.，Fu，H.，Zhou，K.，Hao，H.，Zhao，Y.，...&Liu，J.(2019).Ce-net:Context encoder network for 2d medical image segmentation.IEEEtransactions on medical imaging，38(10)，2281-2292.

[8]Fan，D.P.，Zhou，T.，Ji，G.P.，Zhou，Y.，Chen，G.，Fu，H.，...&Shao，L.(2020).Inf-net:Automatic covid-19 lung infection segmentation from ct images.IEEETransactions on Medical Imaging，39(8)，2626-2637.

[9]Gao，S.，Cheng，M.M.，Zhao，K.，Zhang，X.Y.，Yang，M.H.，&Torr，P.H.(2019).Res2net:A new multi-scale backbone architecture.IEEE transactions on patternanalysis and machine intelligence.

[10]Li，J.，Yu，Z.L.，Gu，Z.，Liu，H.，&Li，Y.(2019).Dilated-inception net:multi-scale feature aggregation for cardiac right ventricle segmentation.IEEETransactions on Biomedical Engineering，66(12)，3499-3508.

[11]Christ，P.F.，Elshaer，M.E.A.，Ettlinger，F.，Tatavarty，S.，Bickel，M.，Bilic，P.，...&Menze，B.H.(2016，October).Automatic liver and lesion segmentationin CT using cascaded fully convolutional neural networks and 3D conditionalrandom fields.In International Conference on Medical Image Computing andComputer-Assisted Intervention(pp.415-423).Springer，Cham.

发明内容

在下文中给出了关于本发明实施例的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，以下概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本申请的一个方面，提供一种深度学习网络结构，本申请将其记为Aort-Net网络结构，其包括编码器模块、SA(Special Attention)注意力模块、序列特征金字塔注意力SFPA(Sequence Feature Pyramid Attention)模块、以及带有CA(Channel Attention)注意力模块的解码器模块，所述编码器模块提取CT体积内连续图像图像特征进行下采样形成不同尺度的特征图将编码器模块最后一层输出的卷积层的特征输入序列特征金字塔注意力SFPA模块提取不同尺度的序列特征信息；将编码器模块输出的卷积层特征输入SA空间注意力模块筛选编码器输出的不同尺度的浅层特征，并与深层特征拼接；CA通道注意力模块模块和SA空间注意力模块相配合，将拼接后的特征进行通道方向校准。使用时，将最末尾的CA通道注意力模块输出的特征送入多标签推理模块，即可得到最终的预测图。本申请中，通过序列特征金字塔注意力SFPA模块关联不同尺度的CT图像序列特征，探索切片间的相关性，指导当前图像分割；同时，在网络的解码器中联合SA空间注意力模块和CA通道注意力模块，加强模型对目标区域的定位精确度以及特征的利用率。

其中，该Aort-Net网络结构的编码器模块可采用预训练模型ResNeSt-50实现。

其中，所述CA通道注意力模块和SA空间注意力模块相配合，将其输出的深层特征与不同尺度的浅层特征进行关联，获得不同尺度的CT图像序列特征，其操作过程具体包括：将编码器模块输出的卷积层记为第一卷积层layer1、第二卷积层layer2、第三卷积层layer3、……、第n-1卷积层layer(n-1)(n为自然数)，第n卷积层layern(n为自然数，n＞1)；将第n卷积层layern的特征输入序列特征金字塔注意力SFPA模块得到深层特征；将第二卷积层layer2至第n-1卷积层layer(n-1)(n为自然数)分别输入第一个SA空间注意力模块、第二个SA空间注意力模块、……、第(n-2)个SA空间注意力模块(即最后一个SA空间注意力模块)，第(n-2)个SA空间注意力模块输出浅层特征，并与序列特征金字塔注意力SFPA模块输出的深层特征拼接形成第二深层特征，第二深层特征经过CA通道注意力模块进行通道方向的校准后与第(n-3)个SA空间注意力模块输出的浅层特征进行拼接，形成第三深层特征，依次类推，直至第一个SA空间注意力模块输出的浅层特征拼接完成。一般在卷积神经网络中，特征的拼接指的是两个特征图在通道方向上的合并，比如两个特征图尺寸为b*c*w*h，拼接后的尺寸为b*2c*w*h。

其中，序列特征金字塔注意力SFPA模块本身就起到提取不同尺度CT图像序列特征的作用(序列特征金字塔注意力SFPA模块可以单独插入任意卷积网络结构中，并产生作用)。SA空间注意力模块和CA通道注意力模块配合，优化浅层特征和深层特征融合的过程。

所述编码器模块提取CT体积内连续图像图像特征进行下采样形成不同尺度的特征图，该特征图为卷积层输出的特征图，编码器在提取一张图像特征时，经过每个卷积层都会进行一次下采样，增加卷积核感受野，同时减少计算量，得到更深层特征，浅层特征包含更多细节信息和无关噪声，深层特征包含更多语义信息。特征图上的特征是编码器在提取图像特征过程中生成的不同深度(尺度)的中间特征。其中，编码器模块输出的卷积层具有5个，其卷积层的数目与所使用的编码器的卷积层的个数相同。

此外，每一个SA空间注意力模块结构相同，每个CA通道注意力模块的结构也是相同的；本申请中，SA空间注意力模块可采用现有技术的方案(例如背景技术中的论文)来实现。CA通道注意力模块在现有技术的基础上增加了对输入特征同时使用最大全局池化和平均全局池化的和来生成信息更丰富的全局特征图。同时，将SA空间注意力模块和改进的CA通道注意力模块结合，大大增强了特征的利用率以及不同尺度目标定位的准确性。

其中，所述序列特征金字塔注意力SFPA模块是在ConvLSTM(已知现有算法)中的基础上引入空洞卷积，ConvLSTM将LSTM(已知现有算法，是一种稳定而强大的循环神经网络单元，但其无法像卷积操作那样保留特征图的空间信息)中的神经元全连接层替换为卷积层，同时保留了序列相关性和空间信息，它的输入门、遗忘门和输出门分别是It，Ft和Ot，分别控制存储单元的访问，更新以及清除；另输入、输出单元和隐藏状态分别用X1,…,t,C1,…,t，和H1,…,t表示，则ConvLSTM的公式如下：

I_t＝σ(W_XI*X_t+W_HI*H_t-1+W_CI*C_t-1+b_I)

F_t＝σ(W_XF*X_t+W_HF*H_t-1+W_CF*C_t-1+b_F)

O_t＝σ(W_XO*X_t+W_HO*H_t-1+W_CO*C_t-1+b_O)

其中*表示卷积操作(本文使用

空洞卷积替代*操作)，

表示Hadamard函数，σ为sigmoid激活函数，b为偏置向量，状态间的加权连接用加权矩阵W表示。输入门和遗忘门控制从前一时间步传播的信息，而下一时间步和下一层接收到的信息则构成所谓的隐藏状态；从而建立序列图像之间的依赖关系；

在ConvLSTM(已知现有算法)中的基础上引入空洞卷积具体包括：序列特征金字塔注意力SFPA模块有四个分支，每个分支由不同空洞率的ConvLSTM组成，其空洞率分别为1，6，12，18(可以是其他数目，但经过实验证明，(1,6,12,18)性能最好)；不同空洞率的ConvLSTM提取不同尺度的序列特征，再将这些特征拼接在一起，形成特征金字塔结构，可以使网络适应不同尺度的语义信息；对拼接后的特征进行通道方向校准；对输入特征进行全局池化，1×1卷积以及sigmoid激活后生成通道权重，对不同尺度的序列特征进行通道加权。其通道方向校准操作当于增强了模块对不同尺度的序列特征的响应能力，从而更好的利用多尺度时空特征，提高SFPA模块性能。

根据本申请的一个方面，提供一种多标签主动脉夹层CT图像分割方法，包括训练阶段和推理阶段，所述训练阶段用于根据Aort-Net网络结构(深度学习网络结构)对预处理后的图像进行训练，得到网络参数，所述推理阶段用于根据网络参数将预处理后的图像通过Aort-Net网络结构(深度学习网络结构)处理后，采用多标签分割算法输出分割掩膜图。其中，训练模型是过程，得到网络参数是结果，训练阶段通过训练模型可以得到网络模型参数。

进一步的，所述训练阶段中，采用BCE+DICE混合损失函数。所述BCE+DICE混合损失函数定义为：L_total＝αL_mBCE+L_mDSC；

其中，α表示骰子系数损失函数和二值交叉熵损失函数的权重。

进一步的，所述训练阶段具体包括：构建图片数据集(例如主动脉夹层、新冠肺炎)；对图片数据集进行图像预处理；将预处理后的图片数据集输入Aort-Net网络结构(深度学习网络结构)，采用BCE+DICE混合损失函数，梯度下降对Aort-Net网络结构进行训练，迭代N次后保存网络参数。通过采用改进的注意力模块(SA空间注意力模块和CA通道注意力模块)和关联了不同尺度的CT图像序列特征(序列特征金字塔注意力SFPA模块)的Aort-Net网络结构，以及优化的BCE+DICE混合损失函数，可得到最佳的精度。

进一步的，所述推理阶段包括：导入训练阶段的网络参数；输入CT容积(由主动脉夹层CT图像获得)；图像预处理；将预处理后的图片数据集输入Aort-Net网络结构；采用多标签分割算法输出分割掩膜图。此处的图像预处理指的是对输入原图进行预处理。

据观察，主动脉夹层分割任务中，不同的类别之间存在重叠区域，并且重叠的类别之间具有一定关联性。由于主动脉夹层是主动脉内部的病变(真腔、假腔和内膜片)，病变区域将位于主动脉区域(升主动脉、降主动脉、主动脉弓和肺动脉)内部：病灶会与器官重叠：属于真假腔的区域与主动脉的区域相互重叠，内膜片一定与真假腔区域和主动脉区域重叠。不同器官之间互不重叠，并且一个像素实例最多得到三个标签。而普通多标签分类预测器并未考虑类别之间的关联性，不能得到最优解。因此，本发明对普通多标签分类预测器进行改进。根据组织和器官的结构，本发明将类别‘从外到内’分为g1,g2和g3三组。g1中的类别囊括了图像所有区域(背景、肺、血管等)，g2中的类别(真腔和假腔)与g1中的类别重叠，g3中的类别(内膜片)与g1和g2都重叠。组内的类别互不重叠，每组之间的类别存在相互重叠的可能。

因此，所述多标签分割算法具体包括：设网络经过sigmoid激活后输出为P＝{p₁,p₂...p_c},p_i∈[0,1]，最终分类结果Y＝{y₁,y₂,y₃}其中C(C＝c₁+c₂+c₃)表示预测的类别数(c1，c2，c3分别表示g1，g2，g3的类别数量，y1，y2，y3分别表示g1，g2，g3的分类结果)；y₁＝argmax({p₁,p₂...,p_c1})，计算g1预测类别中最大值对应的位置得到第一个标签；其中，argmax(·)表示取向量最大值的下标，即类别编号；计算g2和g3中的类别时，则需要考虑是否存在标签；

设函数：

其中V表示向量，max(·)表示求向量最大值，则有：

当属于g2或g3的预测向量最大值大于预设阈值时表示存在标签，通过计算最大值的位置得到y2和y3，y2和y3分别表示g2和g3的分类结果。

本发明提出的分组多标签分割方法相对传统多标签预测器可以更好的理解不同类别之间的关系，抑制互斥类别的响应，避免了的不合理标签的出现，从而提升模型器的性能。

本发明实现一种深度学习网络结构及应用该深度学习网络结构的多标签主动脉夹层CT图像分割方法，与现有技术相比，本发明具有如下优点：

1、通过序列特征金字塔注意力SFPA模块，该Aort-Net网络结构可以挖掘CT图像切片之间的序列相关性，同时利用联合注意力模块(SA空间注意力模块和CA通道注意力模块)，增强特征的利用率以及不同尺度目标定位的准确性；

2、本发明的多标签主动脉夹层CT图像分割方法设计了一种分组多标签分割方法来关联类间关系同时提高分类器性能，该分组多标签分割方法相对传统多标签分类器可以更好的理解不同类别之间的关系，抑制互斥类别的响应，避免了的不合理标签的出现，从而提升分类器的性能。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1为本发明的主动脉夹层分割示意图；

图2a为Aort-Net网络结构的架构图，图2b为Aort-Net网络结构的示意图；

图3为本发明的序列特征金字塔注意模块示意图；

图4为本发明的不同空洞率ConvLSTM的输入和输出的时序特征映射关系示意图

图5为本发明的SA空间注意力模块示意图；

图6为本发明的CA通道注意力模块示意图；

图7为本发明的多标签分割示意图；

图8a为本发明的多标签主动脉夹层CT图像分割方法的训练阶段示意图；

图8b为本发明的多标签主动脉夹层CT图像分割方法的推理阶段示意图；

图9为本发明的数据集中各类分割组织的比例图；

图10为本发明的主动脉夹层分割的可视化结果对比图；

图11为本发明的肺炎分割的可视化结果对比图。

具体实施方式

下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。在本发明的描述中，需要理解的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明所要解决的技术问题是提供一种多标签主动脉夹层分割网络，该网络可以挖掘CT图像切片之间的序列相关性，同时利用联合注意力模块，增强特征的利用率以及不同尺度目标定位的准确性。此外，本发明设计了一种分组的单阶段多标签分割方法来关联类间关系同时提高分类器性能。

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像素赋予相同的编号。

实施例1

本实施例提供一种Aort-Net网络结构，其是一种深度模型，从CT图像中快速分割和检测主动脉夹层。

具体的，参见图2a和图2b的网络总框架图，Aort-Net网络结构是一个算法网络结构为字母U形的编码解码网络。图2中，SA是指Special Attention，空间注意力模块；SFPA是指Sequence Feature Pyramid Attention，序列特征金字塔注意力SFPA模块；CA是指Channel Attention，通道注意力模块；Conv layer是指卷积层，inference是指模型阶段，flow offeature是指特征流，downsample是指降采样，upsample是指上采样。

参见图2b，本发明引入预训练模型ResNeSt-50作为Aort-Net的编码器模块。首先，编码器模块提取CT图像特征，并通过卷积层(第一layer1、第二卷积层layer2、第三卷积层layer3、第四卷积层layer4、第五卷积层layer5)生成不同尺度的特征图，将第五卷积层layer5的输出特征输入序列特征金字塔注意力SFPA模块中得到第一深层特征，将第四卷积层layer4的输出特征输入一SA空间注意力模块得到第一浅层特征，将该第一浅层特征与第一深层特征拼接得到第二深层特征；第二深层特征经过一CA通道注意力模块进行通道方向的校准得到校准后的第二深层特征，将第三卷积层layer3的输出特征输入一SA空间注意力模块得到第二浅层特征，将该第二浅层特征与校准后的第二深层特征拼接得到第三深层特征；第三深层特征经过一CA通道注意力模块进行通道方向的校准得到校准后的第三深层特征，将第二卷积层layer2的输出特征输入一SA空间注意力模块得到第三浅层特征，将该第三浅层特征与校准后的第三深层特征拼接得到第四深层特征，第四深层特征经过一CA通道注意力模块进行通道方向的校准得到校准后的第四深层特征，该校准后的第四深层特征即为融合了不同尺度的序列特征信息。最后，将最末尾的CA通道注意力模块输出的校准后的第四深层特征送入多标签推理模块，得到最终的预测图。

Aort-Net是一个U形的编码解码网络，网络总框架图如图2所示。本发明引入预训练模型ResNeSt-50作为Aort-Net的编码器模块。首先，编码器模块提取CT图像特征，将特征输入SFPA(Sequence Feature Pyramid Attention)模块中，融合不同尺度的序列特征信息。然后，SA(Special Attention)筛选编码器输出的不同尺度的浅层特征，与深层特征拼接。之后通过带有CA(Channel Attention)的解码器，对拼接后的特征进行通道方向的校准。最后，将最末尾的CA通道注意力模块输出的特征送入多标签推理模块，得到最终的预测图。

一、序列特征金字塔注意模块

受ConvLSTM、ASPP结构的启发，提出了序列特征金字塔注意模块，在ConvLSTM中的基础上引入空洞卷积(Atrous-ConvLSTM)，提取不同尺度下的时间和空间特征。在详细介绍提出的序列特征金字塔模块之前，首先对ConvLSTM进行详细的介绍。

研究表明，LSTM是一种稳定而强大的循环神经网络单元，但其无法像卷积操作那样保留特征图的空间信息。ConvLSTM将LSTM中的神经元全连接层替换为卷积层，同时保留了序列相关性和空间信息。它的输入门、遗忘门和输出门分别是It，Ft和Ot，分别控制存储单元的访问，更新以及清除。另输入、输出单元和隐藏状态分别用X1，…，t，C1，…，t，和H1，…，t表示，则ConvLSTM的公式如下：

其中*表示卷积操作(本文使用

空洞卷积替代*操作)，

表示Hadamard函数，σ为sigmoid激活函数，b为偏置向量，状态间的加权连接用加权矩阵W表示。输入门和遗忘门控制从前一时间步传播的信息，而下一时间步和下一层接收到的信息则构成所谓的隐藏状态。从而建立序列图像之间的依赖关系。图4展示了不同空洞率的ConvLSTM对时序特征之间的映射关系的影响。

为了提取更加高效的时空信息，提出了序列特征金字塔注意模块，如图3所示f泛指特征，GAP为全局最大池化。下面结合图片和公式做出更细节的描述如下：令输入CT图像序列为

经过ResNeSt提取特征得到SFPA模块的输入特征

其中X_t与公式(1)对应，

张量表示为

SFPA模块有四个并联分支，每个分支由不同空洞率的ConvLSTM组成，其空洞率分别为1，6，12，18，与Inception结构类似。将

输入不同空洞率的ConvLSTM得到

和

四个不同尺度的序列特征(d＝n表示空洞率为n的ConvLSTM得到的特征,

)。将这四个不同尺度的序列特征按通道方向拼接，得到

其中

同时包含了时序信息和多尺度空间信息，

张量表示为

随后，我们对拼接后的特征进行通道方向校准。我们对输入特征进行全局池化，1×1卷积以及sigmoid激活后生成通道权重f^TW∈[0，1]^T×1×W×H，公式如下所示：

f^TW＝δ(Φ¹⁰²⁴(GAP(fⁱⁿ)) (2)

其中，

表示最大池化操作，Φ¹⁰²⁴表示1×1的卷积，生成1024通道的特征，

表示Sigmoid激活函数。然后将f^TW与f^d相乘，即对不同尺度的序列特征进行通道加权后，得到最后的输出

f^out＝f^TW×f^d (3)

的通道方向校准操作当于增强了模块对不同尺度的序列特征的响应能力，从而更好的利用多尺度时空特征，提高SFPA模块性能。

本申请的序列特征金字塔注意模块虽然借鉴了现有技术中特征金字塔模块的思想，本申请创新性的结合ConvLSTM和引入空洞卷积提取不同尺度的序列特征，以及对不同尺度的序列特征进行通道方向校准。

二、联合注意力模块

本发明的网络延续了U-Net的架构，用远跳链接将编码器的浅层特征与深层特征相拼接，恢复下采样中损失的图像细节。但是，本发明认为浅层特征语义信息较少，并且包含与目标无关的背景噪声。为了更好的利用浅层特征与深层特征，本发明设计了了联合注意力模块，其中包括通道注意力(CA)模块与空间注意力(SA)模块。本发明对浅层特征使用空间注意力模块，抑制背景噪声，增强目标区域的特征。同时，在浅层特征与深层特征拼接后使用了通道注意力模块，抑制不相关的特征通道，突出更加有用的特征通道。

1、空间注意力模块

由于浅层特征包含较少的语义信息，本发明在三个不同分辨率的浅层特征上使用注意力模块，加强了网络对浅层特征感兴趣区域的注意力，增强浅层特征利用率。空间注意模块详细信息如图5所示。fl表示浅层特征，fh表示与浅层特征相同分辨率的深层特征。在空间注意模块中，fh高层特征为低层特征的注意力图生成提供指导信息。fh和fl同时经过1×1的卷积后得到两个相同通道数C的特征，再将两个特征相加，并使用ReLU激活函数激活。将激活后的特征图输入1×1的卷积中压缩特征通道数，得到通道数为1的特征图，再使用Sigmoid激活函数激活得到空间注意力权重图f^SW∈[0,1]^1×W×H。其计算表示如下：

f^SW＝δ(Φ¹(ReLU(Φ^C(f^h)+Φ^C(f^l)))) (4)

其中，ΦC表示1×1的卷积，生成C通道的特征。ReLU(′)表示ReLU激活函数，δ(′)表示Sigmoid激活函数。然后将浅层特征fl与fw相乘，得到最终的浅层特征注意图

f^SA＝f^l×f^SW (5)

2、通道注意力模块

在解码器中，浅层特征与深层特征会从通道方向拼接。浅层特征包含低级语义信息，而深层特征包含更多的高级语义信息，两种特征对图像分割的贡献各不相同。为了更好的利用拼接后的特征，本发明在解码器中引入通道注意模块，突出贡献大的通道特征，抑制不相关的通道。通道注意力模块如图6所示。

不同于只使用平均全局池化操作，本发明对输入特征同时使用最大全局池化和平均全局池化的和来生成信息更丰富的全局特征图。此外，有研究表明，对全局特征图进行降维会降低模型性能。本发明引入了其方法，即使用核大小为k的1D卷积实现全局特征图跨通道交互，在不增加计算量的前提下，不对全局特征图进行降维。其中k也表示跨通道的范围。如图6所示。全局特征图经过1D卷积后，通道数不变，之后再进行sigmoid激活函数，得到通道注意力权重f^CW∈[0,1]^C×1×1。将计算表示如下：

f^CW＝δ(Ψ^k(GAP(fⁱⁿ)+MAP(fⁱⁿ))) (6)

其中Ψk表示核大小为k的1D卷积，GAP(′)和MAP(·)分别表示全局平均池化和全局最大池化操作。然后将输入特征fin与f CW相乘，得到最终的通道特征注意图。

f^CA＝fⁱⁿ×f^CW (7)

此外，对于k的取值与特征图通道数C正相关，本发明通过一个非线性函数来引入一个可能的解，即：

C＝2^(α×k+β) (8)

本文α和β设置分别设置为2和1。可以看出，随着通道数的增加，k值越大，1D卷积跨通道交互的范围也越大。

实施例2

本发明实施例提供一种多标签主动脉夹层CT图像分割方法，包括训练阶段和推理阶段。

如图8a所示，训练阶段具体包括：构建图片数据集(例如主动脉夹层、新冠肺炎)；对图片数据集进行图像预处理；将预处理后的图片数据集输入Aort-Net网络结构(深度学习网络结构)，采用BCE+DICE混合损失函数，梯度下降对Aort-Net网络结构进行训练，迭代N次后保存网络参数。通过采用改进的注意力模块(SA空间注意力模块和CA通道注意力模块)和关联了不同尺度的CT图像序列特征(序列特征金字塔注意力SFPA模块)的Aort-Net网络结构，以及优化的BCE+DICE混合损失函数，可得到最佳的精度。

如图8b所示，推理阶段包括：导入训练阶段的网络参数；输入CT容积(由主动脉夹层CT图像获得)；图像预处理；将预处理后的图片数据集输入Aort-Net网络结构；采用多标签分割算法输出分割掩膜图。上述过程中，图像预处理的步骤用于输入的图像进行去噪、归一化操作，以方便后续训练算法模型和增强算法的鲁棒性。

图像分割为一种像素级分类问题，即给输入图像每个像素点进行分类。目前大多数医学图像分割和语义分割为单标签分割，即每个像素点分配给多个类别中的一个标签。而本发明的分割目标属于多标签分割，并且类间存在关联(如图1所示)。本发明实施例针对这一特点对损失函数和预测器(多标签分类器)进行设计。

一、损失函数

本发明在网络的最后一层使用Sigmoid激活函数得到最终的输出，建立多个独立的逻辑二分类器，作为多标签分类的基础。

图像分割中最常用的损失函数是二元交叉熵损失(BCE)。该损失函数分别检查每个像素，具有较高的收敛速度和分割细节学习能力。本发明的分割任务中，内膜片、真假腔等分割目标占CT图像很小的区域，类别极度不平衡。骰子系数损失(DSC)其本质是衡量真实分割区域与网络预测的分割区域的重叠区域，能够较好缓解类别不平衡问题。

因此，本发明选择结合加权骰子系数损失函数和二值交叉熵损失函数，引导网络平等对待所有类别的同时，增加网络对分割细节的处理能力。混合损失函数可定义为：

L_total＝αL_mBCE+L_mDSC (9)

α表示骰子系数损失函数和二值交叉熵损失函数的权重。为了公平比较，本发明中所有实验中将α设为0.5。

二、多标签分类器

据本发明观察，主动脉夹层分割任务中，不同的类别之间存在重叠区域，并且重叠的类别之间具有一定关联性。由于主动脉夹层是主动脉内部的病变(真腔、假腔和内膜片)，病变区域将位于主动脉区域(升主动脉、降主动脉、主动脉弓和肺动脉)内部：病灶会与器官重叠：属于真假腔的区域与主动脉的区域相互重叠，内膜片一定与真假腔区域和主动脉区域重叠。不同器官之间互不重叠，并且一个像素实例最多得到三个标签。而普通多标签分类预测器并未考虑类别之间的关联性，不能得到最优解。因此，本发明对普通多标签分类预测器进行改进。根据组织和器官的结构，本发明将类别‘从外到内’分为g1，g2和g3三组。g1中的类别囊括了图像所有区域(背景、肺、血管等)，g2中的类别(真腔和假腔)与g1中的类别重叠，g3中的类别(内膜片)与g1和g2都重叠。组内的类别互不重叠，每组之间的类别存在相互重叠的可能。

以一个素点分类为例，设网络经过sigmoid激活后输出为P＝{p₁,p₂...p_c},p_i∈[0,1]，最终分类结果Y＝{y₁,y₂,y₃}其中C(C＝c₁+c₂+c₃)表示预测的类别数(c1，c2，c3分别表示g1，g2，g3的类别数量，y1，y2，y3分别表示g1，g2，g3的分类结果)。

计算g1预测类别中最大值对应的位置得到第一个标签。其中，argmax(·)表示取向量最大值的下标，即类别编号。计算g2和g3中的类别时，则需要考虑是否存在标签。

设函数：

其中V表示向量，max(·)表示求向量最大值，则有：

当属于g2或g3的预测向量最大值大于阈值(0.5)时表示存在标签，通过计算最大值的位置得到y2和y3。其示意图参见图7。

本发明提出的分组多标签分割方法相对传统多标签分类器可以更好的理解不同类别之间的关系，抑制互斥类别的响应，避免了的不合理标签的出现，从而提升分类器的性能。

本发明还提供了实验对比。实验在Intel(R)Core(TM)i9-9900K CPU@3.50GHz，32.00GB RAM和Nvidia GeForce RTX TITAN的硬件环境下运行。本发明基于pytorch深度学习框架实现了方案。

模型训练优化器使用SGD，初始学习率设置为0.001，同时使用学习率余弦衰减，每迭代一次学习率衰减一次。动量系数为0.9，weight decacy权重衰减系数为0.0005，批归一化衰减系数为0.99，Batchsize设置为2。

A、主动脉夹层分割

主动脉夹层分割数据集包含35个增强CT volume，每张CT图像原始尺寸为512×512。所有的CT图像均由中南大学湘雅二医院收集，并在放射科医生指导下，用ImageScope对CT图像进行多标签标记。在每个CT volume的主动脉弓顶部到腹主动脉下端的部分进行离散标记，平均每个CT volume标记100～150个CT slice。其中标记地类别包括背景(BG)、Ascending Aorta(AAO)、Descending Aorta(DAO)、Aortic Arch(AA)、Right Lung(RL)、Left Lung(LL)、Pulmonary Artery(PA)、True Lumen(TL)、False lumen(FL)和IntimalFlap(IF)区域。在数据集上随机选择6个CT volume(719CT slice)作为测试集，剩余29个CTvolume(3874CT slice)作为训练集进行测试。

图9为本发明的数据集中各类分割组织的比例图；图10为本发明的主动脉夹层分割的可视化结果对比图。可以看出，本方法生成的分割最接近于ground truth，对IF小目标区域也能准确分割出来。Aort-Net的成功可以归因于使用联合注意力模块增强了小目标的定位准确度。U-Net和U-Net++在血管和主动脉夹层病灶等较小的区域存在大量漏分割。DeeplabV3+表现稍好，但是IF的定位仍然不够准确。

B、COVID19分割

COVID19分割数据集为首个公开的用于新冠肺炎分割的数据集。该数据集分为两部分，第一部分由来自不同新冠肺炎肺CT中获得的100张JPEG格式的轴向CT图像组成，图像尺寸为512×512。第二部分由9个nii格式的新冠肺炎胸部CT volume组成，总共包含829个轴向切片，切片尺寸为630×630。本发明在9个CT volume中选择5个CT Volume(288张轴向CT切片)作为测试集，选择第一部分的100张轴向CT图像以及剩余的4个CT Volume(541张轴向CT切片)，一共641张CT图像，作为训练集。

从图11中的对比结果上看，Aort-Net在COVID19数据集上仍然获得了最佳的性能。新冠肺炎分割目标形状和尺度变化较大，而本发明的模型不仅仅从序列图像中提取特征，指导当前图像分割。同时，空间注意力模块和通道注意力模块更加有助于模型适应形状和尺度变化较大的分割目标。

本发明采用上述方案，首先，利用序列特征金字塔注意模块，关联不同尺度的CT图像序列特征，通过探索切片间的相关性，指导当前图像分割。同时，在网络的解码器中联合空间注意力模块和通道注意力模块，加强模型对目标区域的定位精确度以及特征的利用率。其次，本发明针对主动脉夹层多标签分割的类间关系，设计了多标签分类器以及相应的二元混合损失函数，在端到端的网络上实现多标签分割。本发明将模型在多个数据集上(自制的主动脉夹层分割数据集、COVID-SemiSeg数据集)进行评估。

综上，本发明方案利用金字塔序列特征注意模块，捕获不同尺度的序列特征，通过探索切片序列的相关性，指导当前CT切片分割。同时通过联合注意力模块，增加特征利用率以及对不同尺度目标的定位精确度。此外，本演技提出了一种多标签分割方法，通过挖掘类间关系提高多标签分类器性能。在主动脉夹层数据集和COVID-SemiSeg公共数据集上的大量实验证明了本发明提出的Aort-Net优于其他最新模型。并且本发明的深度学习网络结构对主动脉夹层快速筛查、诊断和评估有巨大的临床应用价值。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims

1.一种深度学习网络结构，其特征在于：包括编码器模块、SA空间注意力模块、序列特征金字塔注意力SFPA模块、以及带有CA通道注意力模块的解码器模块，所述编码器模块提取CT体积内连续图像特征进行下采样形成不同尺度的特征图，将编码器模块最后一层输出特征输入序列特征金字塔注意力SFPA模块提取不同尺度的序列特征信息；将编码器模块输出的卷积层特征输入SA空间注意力模块筛选编码器输出的不同尺度的浅层特征，并与深层特征拼接；CA通道注意力模块和SA空间注意力模块相配合，将拼接后的特征进行通道方向校准。

2.根据权利要求1所述的一种深度学习网络结构，其特征在于：所述编码器模块采用预训练模型ResNeSt-50实现。

3.根据权利要求1所述的一种深度学习网络结构，其特征在于：所述序列特征金字塔注意力SFPA模块和SA空间注意力模块相配合，将其输出的深层特征与不同尺度的浅层特征进行关联，获得不同尺度的CT图像序列特征，具体包括：将最末尾的浅层特征与序列特征金字塔注意力SFPA模块中输出的深层特征拼接形成次一深层特征，将下一层的浅层特征与次一深层特征拼接形成次二深层特征，依次类推得到最终融合了不同尺度的序列特征信息的拼接后的特征；然后解码器模块通过CA通道注意力模块对SA空间注意力模块和和SA空间注意力模块配合输出的拼接后的特征进行通道方向的校准。

4.根据权利要求1所述的一种深度学习网络结构，其特征在于：所述序列特征金字塔注意力SFPA模块和SA空间注意力模块相配合，将其输出的深层特征与不同尺度的浅层特征进行关联，获得不同尺度的CT图像序列特征，其操作过程具体包括：将编码器模块输出的卷积层记为第一卷积层layer1、第二卷积层layer2、第三卷积层layer3、……、第n-1卷积层layer(n-1)(n为自然数)，第n卷积层layern(n为自然数，n＞1)；将第n卷积层layern的特征输入序列特征金字塔注意力SFPA模块得到深层特征；将第二卷积层layer2至第n-1卷积层layer(n-1)(n为自然数)分别输入第一个SA空间注意力模块、第二个SA空间注意力模块、……、第(n-2)个SA空间注意力模块，第(n-2)个SA空间注意力模块输出浅层特征，并与序列特征金字塔注意力SFPA模块输出的深层特征拼接形成第二深层特征，第二深层特征经过CA通道注意力模块进行通道方向的校准后与第(n-3)个SA空间注意力模块输出的浅层特征进行拼接，形成第三深层特征，依次类推，直至第一个SA空间注意力模块输出的浅层特征拼接完成。

5.根据权利要求1所述的一种深度学习网络结构，其特征在于：所述序列特征金字塔注意力SFPA模块是在ConvLSTM的基础上引入空洞卷积，其具体包括：序列特征金字塔注意力SFPA模块有四个分支，每个分支由不同空洞率的ConvLSTM组成，其空洞率分别为1，6，12，18；不同空洞率的ConvLSTM提取不同尺度的序列特征，再将这些特征拼接在一起，形成特征金字塔结构，使网络适应不同尺度的语义信息；对拼接后的特征进行通道方向校准；对输入特征进行全局池化，1×1卷积以及sigmoid激活后生成通道权重，对不同尺度的序列特征进行通道加权。

6.采用权利要求1-5任一所述的一种深度学习网络结构实现的多标签主动脉夹层CT图像分割方法，其特征在于：其包括训练阶段和推理阶段，所述训练阶段用于根据深度学习网络结构对预处理后的图像进行训练，得到网络参数，所述推理阶段用于根据网络参数将预处理后的图像通过深度学习网络结构处理后，采用多标签分割算法输出分割掩膜图。

7.根据权利要求6所述的多标签主动脉夹层CT图像分割方法，其特征在于：所述训练阶段中，采用BCE+DICE混合损失函数，所述BCE+DICE混合损失函数定义为：

L_total＝αL_mBCE+L_mDSC

8.根据权利要求7所述的多标签主动脉夹层CT图像分割方法，其特征在于：所述训练阶段具体包括：构建图片数据集；对图片数据集进行图像预处理；将预处理后的图片数据集输入深度学习网络结构，采用BCE+DICE混合损失函数，梯度下降对深度学习网络结构进行训练，迭代N次后保存网络参数。

9.根据权利要求6所述的多标签主动脉夹层CT图像分割方法，其特征在于：所述推理阶段包括：导入训练阶段的网络参数；输入CT容积；图像预处理；将预处理后的图片数据集输入深度学习网络结构；采用多标签分割算法输出分割掩膜图。

10.根据权利要求6所述的多标签主动脉夹层CT图像分割方法，其特征在于：所述多标签分割算法包括：

设网络经过sigmoid激活后输出为P＝{p₁,p₂...p_c},p_i∈[0,1]，最终分类结果Y＝{y₁,y₂,y₃}其中C(C＝g₁+g₂+g₃)表示预测的类别数；

计算g1预测类别中最大值对应的位置得到第一个标签；其中，argmax(·)表示取向量最大值的下标，即类别编号；计算g2和g3中的类别时，则需要考虑是否存在标签；

设函数：

其中V表示向量，max(·)表示求向量最大值，则有：

当属于g2或g3的预测向量最大值大于预设阈值时表示存在标签，通过计算最大值的位置得到y2和y3。