CN115147404A - 一种双重特征融合mra图像的颅内动脉瘤分割方法 - Google Patents
一种双重特征融合mra图像的颅内动脉瘤分割方法 Download PDFInfo
- Publication number
- CN115147404A CN115147404A CN202210940594.9A CN202210940594A CN115147404A CN 115147404 A CN115147404 A CN 115147404A CN 202210940594 A CN202210940594 A CN 202210940594A CN 115147404 A CN115147404 A CN 115147404A
- Authority
- CN
- China
- Prior art keywords
- characteristic diagram
- output
- feature
- feature map
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10088—Magnetic resonance imaging [MRI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30016—Brain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Radiology & Medical Imaging (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明属于医学图像处理技术领域,公开了一种双重特征融合MRA图像的颅内动脉瘤分割方法,提出了一种新型的特征融合方式,使神经网络能更有效的分割出颅内动脉瘤的精确位置。具体包括以下步骤:对三维时间飞跃磁共振血管成像图像进行预处理,将其制作为数据集;将处理过的图像输入用于特征提取的解码器以获得逐渐增大的高级语义特征,然后通过双重特征融合使特征反馈至解码器中;解码器进行多尺度的特征提取后还原原本的图像,以取得分割效果。本发明提出的神经网络结构有效的解决了在颅内动脉瘤分割任务中目标较小、样本不均衡的问题,并拥有较优的分割效果。
Description
技术领域
本发明涉及医学图像处理技术领域,尤其涉及一种双重特征融合MRA图像的颅内动脉瘤分割方法。
背景技术
颅内动脉瘤是一种脑血管疾病,多为发生在颅内动脉管壁上的异常膨出,是造成蛛网膜下腔出血的首位病因,在脑血管意外中,仅次于脑血栓和高血压脑出血,位居第三,患病率约为1%-7%。该疾病在任何年龄下都可发病,多发于40 岁以上中老年女性。颅内动脉瘤发生后,常常会进一步发展,加重病情。因此,能够较早的诊断颅内动脉瘤尤为重要。目前主要的治疗方式为开颅手术和血管内介入治疗,而最终手术手段的确定与动脉瘤的部位、形态、大小、数目、是否存在血管痉挛有很大的关系。颅内动脉瘤的检查手段有:计算机断层扫描血管造影 (CTA)、核磁共振血管造影(MRA)、脑血管造影(DSA)等方法。其中,核磁共振血管造影作为一种无创伤性的检查,与CT及常规放射学相比具有特殊的优势,它不需使用对比剂,且不会对患者进行任何二次伤害,是当前临床检测的首要选择之一。特别是使用时间飞越技术(TOF),具有很高的立体与瞬时清晰度,高度的可重复性和灵敏性。由于颅内动脉瘤体积较小,对于医生来说通过人工经验判断影像是否包含病灶是一项复杂的工作,且判断的准确率会受人为因素干扰,很可能会导致漏诊、误诊的出现。另外,培养一名具有诊断能力的医生需要花费较多的时间与资源。
医学影像学设备与计算机科学技术快速发展,给予医学影像分割带来了极大便利与可行性,较为清晰的医学影像与计算机更高的性能能够带来一定的准确率提升。医学图像分割是医学图像处理与分析领域的复杂而关键的步骤,其目的是将医学图像中具有特殊含义的体素分割出来,并提取有效特征,为临床诊疗和病理学研究提供可靠的依据,辅助医生做出更为准确的诊断。由于医学图像具有较高的复杂性且缺少简单的线性特征,人眼却往往较难分辨,分割的精度亟需完善。
目前,随着神经网络的出现与改进,人工智能对于医学影像辅助判断的准确率已经达到专家级别,可以有效的辅助与指导医生进行判断与分割。随着Vision Transformer网络的出现,更是极大的增加了神经网络分割目标的准确率。但颅内动脉瘤不同于其他疾病拥有病灶较大的特点,相较于脑肿瘤、肝肿瘤,颅内动脉瘤的尺寸极小,导致传统的网络较难检测出病灶处。因此仍需要针对颅内动脉瘤的小尺寸对模型进行改进。
发明内容
本发明针对传统的网络对于颅内动脉瘤检测效果差的问题,提出一种双重特征融合MRA图像的颅内动脉瘤分割方法,利用多层与多通道之间的双重特征融合进一步的提高了计算机分割颅内动脉瘤的准确度。
为了实现上述目的,本发明采用以下技术方案:
一种双重特征融合MRA图像的颅内动脉瘤分割方法,包括:
步骤1:对采集到的MRA图像进行预处理并划分数据集;
步骤2:将预处理后的数据输入编码器模块进行语义特征提取;
步骤3:进行层间及通道间双重特征融合,并将融合后的特征反馈至解码器模块中;
步骤4:解码器模块基于步骤2和步骤3提取的特征对MRA图像进行重建,并输出分割结果;
步骤5:基于划分后的数据集进行训练与测试,评价分割结果。
进一步地,所述步骤1包括:
步骤1.1:由放射科专家对收集到的MRA图像进行筛选;
步骤1.2:对筛选后的数据进行N4偏置场矫正;
步骤1.3:移除数值为0的体素;
步骤1.4:对数据进行图像增强:
步骤1.5:将数据集划分为训练集、验证集和测试集;
步骤1.6:将数据转化为张量(Tensor)格式,并进行归一化将数据限定在[0, 1]之间;
步骤1.7:将所有数据由中心切割为128像素×128像素×128像素的大小,对应的张量尺寸为[B,1,128,128,128],其中B为Batch-Size。
进一步地,步骤1.4包括:
步骤1.4.1:依据probability=0.8,max_left_rotation=10,max_right_rotation=10,对图像进行随机左右旋转;其中,probability为旋转概率、max_left_rotation为最大左旋角度、max_right_rotation为最大右旋角度;
步骤1.4.2:取sigma=0.5对图像进行高斯模糊;
步骤1.4.3:将数据进行随机裁剪,并随机改变其长宽高比例;其中,随机裁剪参数设定为(0.6,1.0);
步骤1.4.4:对数据进行lossless重排。
进一步地,所述步骤2包括:
步骤2.1:使用尺寸为4×4×4,步长为4的卷积核对输入图像进行3D PatchPartition与Linear Embedding操作使特征图的尺寸减小到原来的1/4;并将上述特征图输入至LN层进行Layer Norm操作;对上述输出做Drop Out操作;得到特征图1,其尺寸为[1,48,32,32,32]。
步骤2.2:先对特征图1进行Layer Norm操作,之后使用类似于Swin Transformer的编码器架构,将上述输出特征图分为多个7×7×7大小的小块,使用全连接层对每一个小块生成对应的Query、Key与Value;之后以每个小块为单位进行Swin Transformer中的多头注意力(W-MSA)操作;将上述特征图输入到全连接层中;将上述特征图进行Drop Out操作;将上述输出特征图与特征图1进行相加得到特征图2;将上述输出特征图进行Layer Norm操作;将上述输出特征图输入MLP层中;将上述输出特征图进行Drop Out操作;将上述输出特征图与特征图2相加,输出特征图3;其中,多头注意力与MLP层具体操作为:
WMSA(Q,K,V)=dropout2(fc(dropout1(AttentionW(Q,K,V))));
MLP(x)=dropout(fc2(dropout(GELU(fc1(x)))));
其中,AttentionW代表对特征图的每一个小块分别进行Attention操作,C 为16,fc、fc1、fc2为全连接层。
步骤2.3:将上述输出特征图进行Layer Norm操作;对上述分块操作的小块进行滑动,滑动距离为3;使用全连接层对每一个小块生成对应的Query、Key 与Value;之后以每个小块为单位进行Swin Transformer中的滑动多头注意力 (SW-MSA)操作将上述特征图输入到全连接层中;将上述特征图进行Drop Out 操作;将上述输出特征图与特征图3进行相加得到特征图4;将上述输出特征图进行Layer Norm操作;将上述输出特征图输入MLP层中;将上述输出特征图进行Drop Out操作;将上述输出特征图与特征图4相加,输出特征图5。其中,滑动多头注意力(SW-MSA)具体操作为:
SWMSA(Q,K,V)=dropout2(fc(dropout1(AttentionSW(Q,K,V))));
其中,AttentionSW代表对经过滑动操作的特征图中每一个小块分别进行Attention操作,C为16,fc为全连接层。
其中,步骤2.2与步骤2.3的具体操作为:
xl=WMSA(LayerNorm(zl-1))+zl-1;
zl=MLP(LayerNorm(xl))+xl;
xl+1=SWMSA(LayerNorm(zl))+zl;
zl+1=MLP(LayerNorm(xl+1))+xl+1。
其中,xl、zl代表第l次多头注意力操作中的特征图。
步骤2.4:使用Swin Transformer中的3D Patch Merging,对特征图5进行下采样,使其H、W减小至原来的1/2,D不变,特征图尺寸变为[B,96,32,16, 16],其中H、W、D分别表示特征图的高、宽、长。
步骤2.5:重复操作步骤2.2、步骤2.3与步骤2.4,得到特征图尺寸为[1,192, 32,8,8]。
步骤2.6:重复操作步骤2.2、步骤2.3与步骤2.4,得到特征图6,其尺寸为 [1,384,32,4,4]。
进一步地,所述步骤3包括:
步骤3.1:将步骤2中三轮编码器模块输出的结果保存;通过不同的填充与卷积操作,将上述保存特征图尺寸均调整为7×7×7,通道数不变,得到特征图 7、特征图8、特征图9;在通道维度上将特征图7、8、9连接获得特征图10;将特征图7、8、9、10进行Layer Norm操作。
步骤3.2:将特征图7、8、9通过全连接层生成拥有4head的Query1、Query2、Query3(简称为Q1、Q2、Q3)作为多头注意力操作中的Query;将特征图10 通过全连接层生成拥有4head的Key、Value(简称为K、V);使拥有4head的 K、V分别对Q1、Q2、Q3做通道维度上的自注意力得到特征图R1、R2、R3(即注意力操作的输出),其中:
其中n=1,2,3、CΣ为特征图7、8、9的通道数之和。
通过mean操作将R1、R2、R3的head合并;将上述输出特征图分别输入全连接层;将上述输出特征图进行Drop Out操作输出O1、O2、O3;将O1、O2、 O3分别与特征图7、8、9相加得到特征图11、12、13;对上述输出特征图进行Layer Norm操作;对上述输出特征图分别进行MLP操作,其中:
MLP(x)=dropout(fc2(dropout(GELU(fc1(x)))));
将MLP操作后输出分别与特征图11、12、13相加得到特征图14、15、16。
步骤3.3:将步骤3.2重复三次;对上述输出特征图分别进行Layer Norm操作;通过维度变换操作使特征图尺寸由[B,Patch,C]转化为[B,D,H,W,C],得到特征图17、18、19;其中B代表训练中的Batch Size,Patch代表在自注意力操作中Query、Key与Value的个数,C代表通道数,D、H、W代表特征图的长、高、宽。
步骤3.4:输出三次重复步骤2.2中的Key、Value得到k11、k12、k13、v11、 v12、v13;输出三次重复步骤2.3中的Key、Value得到k21、k22、k23、v21、v22、v23;其中,第一个下标代表在层中的位置,第二个下标代表在哪一层;例如:k11为第一层W-MSA中key对应的结果,k23为第三层中SW-MSA中Value对应的结果。
步骤3.5:将特征图10进行SE注意力机制操作与softmax操作,将按通道数分割后得到结果与特征图17、18、19在通道方向上做torch.cat操作;通过填充与卷积操作将上述输出特征图尺寸转化为与其对应的步骤3.1输入的特征图尺寸,输出结果特征图;将上述输出结果特征图分别与步骤2.2重复三次的输入结果相加得到特征图20、21、22。
进一步地,所述步骤4包括:
步骤4.1:上采样操作,特征图6通过flatten与transpose操作将其尺寸变为 [B,H×W×D,C];将上述输出特征图通过全连接层上采样至[B,H×W×D,2×C];上述输出特征图通过view操作将其尺寸调整至[B,D,H,W,2×C];通过rearrange 操作将上述输出特征图尺寸调整至[B,D,2×H,2×W,C/2];将上述输出特征图进行Layer Norm操作,此时特征图尺寸为[B,384,32,8,8]。
步骤4.2:输入特征图22和步骤4.1中输出特征图使用torch.cat操作将二者在通道维度上合并通道数加倍;将上述输出特征图通过全连接层将其通道数减半,然后分为两路分别进行步骤2.2中的操作,其中一路操作中Key与Value使用步骤3.4中的k13、v13代替获得特征图23,另一路操作仍用原本的Key与Value获得特征图24;使用Swin Transformer中的PositionalEncoding3D对特征图24添加 3D位置信息,输出特征图25;并把特征图23、24、25通过线性运算获得特征图26;其中,特征图25的得出过程如下:
output=0.5x1+0.5x2+MLP(PositionalEncoding(x1));
其中output为输出的特征图25,x1为特征图24,x2为特征图23,位置编码仍使用Swin Transformer中的位置编码。
步骤4.3:再次将上述特征图分为两路分别进行步骤2.3中的操作,其中一路操作中Key与Value使用步骤3.4中的k23、v23代替获得特征图27,另一路操作仍用原本的Key与Value获得特征图28;使用Swin Transformer中的 PositionalEncoding3D对特征图28添加3D位置信息,输出特征图29;并把特征图27、28、29通过线性运算获得特征图30;其中,特征图29的得出过程如下:
output=0.5x1+0.5x2+MLP(PositionalEncoding(x1));
其中output为输出的特征图29,x1为特征图28,x2为特征图27,位置编码仍使用Swin Transformer中的位置编码。
步骤4.4:按照步骤4.1方式对特征图30进行上采样,输出上采样后特征图,特征图尺寸为[B,96,32,16,16]。
步骤4.5:对上述输出特征图重复进行步骤4.2、步骤4.3、步骤4.4操作,其中步骤4.2的输入改为上步输出特征图和特征图21,其中步骤4.2中的一路 Key、Value用步骤3.4中的k12、v12代替,步骤4.3中的一路Key、Value用步骤3.4中的k22、v22代替,输出特征图,特征图尺寸为[B,48,32,32,32]。
步骤4.6:对上述输出特征图重复进行步骤4.2、步骤4.3操作,其中步骤4.2 的输入改为上步输出特征图和特征图20,其中步骤4.2中的一路Key、Value用步骤3.4中的k11、v11代替,步骤4.3中的一路Key、Value用步骤3.4中的k21、 v21代替,输出特征图,特征图尺寸为[B,48,32,32,32]。
步骤4.7:对步骤4.6输出特征图进行Layer Norm操作。
步骤4.8:将步骤4.7输出的特征图输入全连接层;将上述输出特征图进行 LayerNorm操作;使其复原为与网络输入尺寸相同的特征图,输出分割结果,结果的尺寸为[B,1,128,128,128]。
进一步地,所述步骤5包括:
步骤5.1:采用Adam优化器进行训练,其中:lr(学习率)设置为0.0001,其他参数默认;采用BCEWithLogitsLoss与Dice Loss结合的损失函数,其中:
loss=0.3×BCEWithLogitsLoss+0.7×Dice Loss;
步骤5.2:评价分割结果:
Dice,用于衡量真实值与预测值的相似度即分割效果,其中:
其中,pred代表模型输出结果,true代表分割真实值。
与现有技术相比,本发明具有的有益效果:
1、本发明将层与通道之间的特征进行融合,增加了分割颅内动脉瘤的准确率,在增加较小训练成本上实现性能的提升。
2、本发明使用Transformer网络架构来代替传统的卷积神经网络,进一步提高了网络的准确率。
附图说明
图1为本发明实施例一种双重特征融合MRA图像的颅内动脉瘤分割方的流程示意图;
图2为本发明实施例用于颅内动脉瘤分割的主干模型图;
图3为本发明实施例编码器结构图;
图4为本发明实施例编码器模块参数表;
图5为本发明实施例双重特征融合模块结构图;
图6为本发明实施例解码器结构图;
图7为本发明实施例解码器模块参数表。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种双重特征融合MRA图像的颅内动脉瘤分割方法,包括:
S1:对采集到的MRA图像(三维时间飞跃磁共振血管成像图像(3D Time-of-FlightMR Angiography,3D TOF MRA))进行预处理并划分数据集;
S2:将预处理后的数据输入编码器模块进行语义特征提取;
S3:进行层间及通道间双重特征融合,并将融合后的特征反馈至解码器模块中;
S4:解码器模块基于S2和S3提取的特征对MRA图像进行重建,并输出分割结果;
S5:基于划分后的数据集进行训练与测试,评价分割结果。
进一步地,本发明采用的用于颅内动脉瘤图像分割的主干模型图如图2所示。
进一步地,S1包括:
S1.1:由放射科专家对收集到的MRA图像进行筛选;
S1.2:对筛选后的数据进行N4偏置场矫正;
S1.3:移除数值为0的体素;
S1.4:对数据进行图像增强:
S1.4.1:对图像进行随机左右旋转,其中概率为0.8、最大左旋角度为10度、最大右旋角度为10度。
S1.4.2:取sigma=0.5对图像进行高斯模糊。
S1.4.3:将数据进行随机裁剪,并随机改变其长宽高比例;其中,随机裁剪参数设定为(0.6,1.0)。
S1.4.4:对数据进行lossless重排。
S1.5:将数据集划分为训练集、验证集和测试集,其比例为4:4:1,且进行3 折交叉验证;
S1.6:将数据转化为张量(Tensor)格式,并进行归一化将数据限定在[0, 1]之间;
S1.7:将所有数据由中心切割为128像素×128像素×128像素的大小,对应的张量尺寸为[B,1,128,128,128],其中B为Batch-Size,在本技术方案中B 设为1。
进一步地,如图3所示,本实施例采用3D Swin-Unet编码器架构,其中包含一个Patch Embed模块、三个编码器模块,其中一个Patch Embed模块包含一个Patch Partition模块、一个Linear Embedding模块,其中一个编码器模块包含两个自注意力模块、一个下采样模块。其具体参数如图4所示。具体处理流程如下:
S2.1:使用尺寸为4×4×4,步长为4的卷积核对输入图像进行3D PatchPartition与Linear Embedding操作使特征图的尺寸减小到原来的1/4;并将上述特征图输入至LN层进行Layer Norm操作;对上述输出做Drop Out操作;得到特征图1,其尺寸为[1,48,32,32,32]。
在Encorder1中,执行S2.2至S2.4;具体地,
S2.2:先对特征图1进行Layer Norm操作,将上述输出特征图分为多个7×7×7 大小的小块,使用全连接层对每一个小块生成对应的Query、Key与Value;之后以每个小块为单位进行Swin Transformer中的多头注意力(W-MSA)操作;将上述特征图输入到全连接层中;将上述特征图进行Drop Out操作;将上述输出特征图与特征图1进行相加得到特征图2;将上述输出特征图进行Layer Norm 操作;将上述输出特征图输入MLP层中;将上述输出特征图进行Drop Out操作;将上述输出特征图与特征图2相加,输出特征图3;其中,多头注意力(W-MSA) 与MLP层具体操作为:
WMSA(Q,K,V)=dropout2(fc(dropout1(AttentionW(Q,K,V))));
MLP(x)=dropout(fc2(dropout(GELU(fc1(x)))));
其中,AttentionW代表对特征图的每一个小块分别进行Attention操作,C 为16,fc、fc1、fc2为全连接层。
S2.3:将上述输出特征图进行Layer Norm操作;对上述分块操作的小块进行滑动,滑动距离为3;使用全连接层对每一个小块生成对应的Query、Key与 Value;之后以每个小块为单位进行Swin Transformer中的滑动多头注意力 (SW-MSA)操作将上述特征图输入到全连接层中;将上述特征图进行Drop Out 操作;将上述输出特征图与特征图3进行相加得到特征图4;将上述输出特征图进行Layer Norm操作;将上述输出特征图输入MLP层中;将上述输出特征图进行Drop Out操作;将上述输出特征图与特征图4相加,输出特征图5。其中,滑动多头注意力(SW-MSA)具体操作为:
SWMSA(Q,K,V)=drioout2(fc(drioout1(AttentionSW(Q,K,V))));
其中,AttentionSW代表对经过滑动操作的特征图中每一个小块分别进行Attention操作,C为16,fc为全连接层。
其中,S2.2与S2.3的具体操作为:
xl=WMSA(LayerNorm(zl-1))+zl-1;
zl=MLP(LayerNorm(xl))+xl;
xl+1=SWMSA(LayerNorm(zl))+zl;
zl+1=MLP(LayerNorm(xl+1))+xl+1。
其中,xl、zl代表第l次多头注意力操作中的特征图。
S2.4:使用Swin Transformer中的3D Patch Merging,对特征图5进行下采样,使其H、W减小至原来的1/2,D不变,特征图尺寸变为[B,96,32,16, 16]。
S2.5:在Encorder2中,重复操作S2.2,S2.3,S2.4,得到特征图尺寸为[1, 192,32,8,8]。
S2.6:在Encorder3中,重复操作S2.2,S2.3,S2.4,得到特征图6,其尺寸为[1,384,32,4,4]。
进一步地,本实施例在编码器与解码器之间构建了双重特征融合模块用于进行层间及通道间双重特征融合,利用解码器每层的特征图获得不同尺度的Query 和融合多种尺度的Key、Value,利用上述Query、Key、Value进行多头注意力操作(MSA),以融合不同层间不同尺度的特征。此外,该模块在通道方向上结合多尺度的信息通过SE注意力机制与Softmax层,以获取通道之间的特征融合。即该模块融合了层间与通道间的特征。双重特征融合模块结构如图5所示,双重特征融合模块的具体流程如下:
S3.1:将Encoder1、2、3的输出结果保存;通过不同的填充与卷积操作,将上述保存特征图尺寸均调整为7×7×7,通道数不变,通过 Conv1(K:3×5×5,S:5×2×2,P:1×1×1)得到特征图7、Conv3(K:3×3×3,S:5×1×1,P:1×1×1) 得到特征图8、Conv3(K:3×2×2,S:5×1×1,P:1×2×2)特征图9;在通道维度上将特征图7、8、9连接获得特征图10;将特征图7、8、9、10进行Layer Norm操作。
S3.2:将特征图7、8、9通过全连接层生成拥有4head(头)的Query1、 Query2、Query3(简称为Q1、Q2、Q3)作为多头注意力操作中的Query;将特征图10通过全连接层生成拥有4head的Key、Value(简称为K、V);使K、V 分别对Q1、Q2、Q3做通道维度上的自注意力得到特征图R1、R2、R3(即注意力操作的输出),其中:
其中n=1,2,3、CΣ为特征图7、8、9的通道数之和。
通过mean操作将R1、R2、R3的head合并;将上述输出特征图分别输入全连接层,进行Drop Out操作后输出O1、O2、O3;将O1、O2、O3分别与特征图7、8、9相加得到特征图11、12、13;对特征图11、12、13分别进行Layer Norm 操作;对Layer Norm操作后输出特征图分别进行MLP操作,其中:
MLP(x)=dropout(fc2(dropout(GRLU(fc1(x)))));
将MLP操作后输出分别与特征图11、12、13相加得到特征图14、15、16。
S3.3:将S3.2重复三次;对上述输出特征图分别进行Layer Norm操作;通过维度变换操作使特征图尺寸由[B,Patch,C]转化为[B,D,H,W,C],得到特征图17、18、19;其中B代表训练中的Batch Size;Patch代表在自注意力操作中Q、K、V的个数;C代表通道数;D、H、W代表特征图的长、高、宽。
S3.4:输出三次重复S2.2中的Key、Value得到k11、k12、k13、v11、v12、v13;输出三次重复S2.3中的Key、Value得到k21、k22、k23、v21、v22、v23;其中,第一个下标代表在层中的位置,第二个下标代表在哪一层,例如:k11为第一层W-MSA中key对应的结果,v23为第三层中SW-MSA中Value对应的结果。
S3.5:将特征图10进行SE注意力机制操作与softmax操作,将按通道数分割后得到结果与特征图17、18、19在通道方向上做torch.cat操作;通过Conv4、 Conv5、Conv6操作将上述输出特征图尺寸转化为与其对应的S3.1输入的特征图尺寸,输出结果特征图;将上述输出特征图分别与S2.2重复三次的输入结果相加得到特征图20、21、22;其中,Conv4、Conv5、Conv6为Conv1、Conv2、 Conv3的反卷积。
进一步地,如图6所示,本实施例采用3D Swin-Unet解码器架构,其中包含一个Bottleneck Layer模块、三个解码器模块,其中一个解码器模块包含两个自注意力模块、一个上采样模块。其具体参数如图7所示。具体处理流程如下:
S4.1:在Decoder1中,输入特征图22和上层输出特征图使用torch.cat操作将二者在通道维度上合并,通道数加倍;将上述输出特征图通过全连接层将其通道数减半;将上述特征图分为两路分别进行表2中的操作,其中一路操作中Key 与Value使用S3.4中的k13、v13代替获得特征图23,另一路操作仍用原本的Key 与Value获得特征图24;使用SwinTransformer中的PositionalEncoding3D对特征图24添加3D位置信息,输出特征图25;并把特征图23、24、25通过线性运算获得特征图26;其中,特征图25的得出过程如下:
output=0.5x1+0.5x2+MLP(PositionalEncoding(x1));
其中output为输出的特征图25,x1为特征图24,x2为特征图23,位置编码仍使用Swin Transformer中的位置编码。
S4.2:再次将上述特征图分为两路分别进行表2中的操作,其中一路操作中 Key与Value使用S3.4中的k23、v23代替获得特征图27,另一路操作仍用原本的 Key与Value获得特征图28;使用Swin Transformer中的PositionalEncoding3D 对特征图28添加3D位置信息,输出特征图29;并把特征图27、28、29通过线性运算获得特征图30;其中,特征图29的得出过程如下:
output=0.5x1+0.5x2+MLP(PositionalEncoding(x1));
其中output为输出的特征图29,x1为特征图28,x2为特征图27,位置编码仍使用Swin Transformer中的位置编码。
S4.3:在Decoder2中,对上层输出特征图重复进行S4.1、S4.2操作,其中输入改为上层输出特征图和特征图21,其中S4.1中的一路Key、Value用S3.4 中的k12、v12代替,S4.2中的一路Key、Value用S3.4中的k22、v22代替,输出特征图。
S4.4:在Decoder3中,对上述输出特征图重复进行S4.1、S4.2操作,其中的输入改为上层输出特征图和特征图20,其中S4.1中的一路Key、Value用S3.4 中的k11、v11代替,S4.2中的一路Key、Value用S3.4中的k21、v21代替,输出特征图。
进一步地,S5包括:
S5.1:采用Adam优化器进行训练,其中:lr(学习率)设置为0.0001,其他参数默认;共训练300epoch;采用BCEWithLogitsLoss与Dice Loss结合的损失函数,其中:
loss=0.3×BCEWithLogitsLoss+0.7×Dice Loss;
S5.2:评价分割结果:
Dice,用于衡量真实值与预测值的相似度即分割效果,其中:
其中,pred代表模型输出结果,true代表分割真实值。
综上,本发明将层与通道之间的特征进行融合,增加了分割颅内动脉瘤的准确率,在增加较小训练成本上实现性能的提升。本发明使用Transformer网络架构来代替传统的卷积神经网络,进一步提高了网络的准确率。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种双重特征融合MRA图像的颅内动脉瘤分割方法,其特征在于,包括:
步骤1:对采集到的MRA图像进行预处理并划分数据集;
步骤2:将预处理后的数据输入编码器模块进行语义特征提取;
步骤3:进行层间及通道间双重特征融合,并将融合后的特征反馈至解码器模块中;
步骤4:解码器模块基于步骤2和步骤3提取的特征对MRA图像进行重建,并输出分割结果;
步骤5:基于划分后的数据集进行训练与测试,评价分割结果。
2.根据权利要求1所述的一种双重特征融合MRA图像的颅内动脉瘤分割方法,其特征在于,所述步骤1包括:
步骤1.1:对采集到的MRA图像进行筛选;
步骤1.2:对筛选后的数据进行N4偏置场矫正;
步骤1.3:移除数值为0的体素;
步骤1.4:对数据进行图像增强:
步骤1.5:将数据集划分为训练集、验证集和测试集;
步骤1.6:将数据转化为Tensor格式,并进行归一化使数据限定在[0,1]之间;
步骤1.7:将所有数据由中心切割为128像素×128像素×128像素的大小。
3.根据权利要求2所述的一种双重特征融合MRA图像的颅内动脉瘤分割方法,其特征在于,所述步骤1.4包括:
步骤1.4.1:依据probability=0.8,max_left_rotation=10,max_right_rotation=10,对图像进行随机左右旋转;其中,probability为旋转概率,max_left_rotation为最大左旋角度,max_right_rotation为最大右旋角度;
步骤1.4.2:取sigma=0.5对图像进行高斯模糊;
步骤1.4.3:将数据进行随机裁剪,并随机改变其长宽高比例;
步骤1.4.4:对数据进行lossless重排。
4.根据权利要求1所述的一种双重特征融合MRA图像的颅内动脉瘤分割方法,其特征在于,所述步骤2包括:
步骤2.1:使用尺寸为4×4×4,步长为4的卷积核对输入图像进行3D Patch Partition与Linear Embedding操作使特征图的尺寸减小到原来的1/4;并将上述特征图输入至LN层进行Layer Norm操作;对上述输出做Drop Out操作;得到特征图1;
步骤2.2:先对Drop Out操作后输出的特征图进行Layer Norm操作,之后使用SwinTransformer的编码器架构,将上述输出特征图分为多个7×7×7大小的小块,使用全连接层对每一个小块生成对应的Query、Key与Value;之后以每个小块为单位进行SwinTransformer中的多头注意力操作;将上述特征图输入到全连接层中,进行Drop Out操作;将Drop Out操作后的输出特征图与特征图1进行相加得到特征图2;将特征图2进行LayerNorm操作;然后输入MLP层中,进行Drop Out操作;将Drop Out操作后的输出特征图与特征图2相加,输出特征图3;
步骤2.3:将特征图3进行Layer Norm操作;对上述分块操作的小块进行滑动;使用全连接层对每一个小块生成对应的Query、Key与Value;之后以每个小块为单位进行SwinTransformer中的滑动多头注意力操作,将上述操作后的特征图输入到全连接层中,然后进行Drop Out操作;将Drop Out操作后的输出特征图与特征图3进行相加得到特征图4;将特征图4进行Layer Norm操作;将Layer Norm操作后输出特征图输入MLP层中,进行Drop Out操作;将Drop Out操作后输出特征图与特征图4相加,输出特征图5;
步骤2.4:使用Swin Transformer中的3D Patch Merging对特征图5进行下采样,使其H、W减小至原来的1/2,D不变,其中H、W、D分别表示特征图的高、宽、长;
步骤2.5:重复操作步骤2.2、步骤2.3与步骤2.4各两次,得到特征图6。
5.根据权利要求3所述的一种双重特征融合MRA图像的颅内动脉瘤分割方法,其特征在于,所述步骤3包括:
步骤3.1:将步骤2中三轮编码器模块输出的结果保存;通过不同的填充与卷积操作,将上述保存特征图尺寸均调整为7×7×7,通道数不变,得到特征图7、特征图8、特征图9;在通道维度上将特征图7、8、9连接获得特征图10;将特征图7、8、9、10进行Layer Norm操作;
步骤3.2:将特征图7、8、9通过全连接层生成拥有4head的Query1、Query2、Query3作为多头注意力操作中的Query;将特征图10通过全连接层生成拥有4head的Key、Value;使4head的Key、Value分别对Query1、Query2、Query3做通道维度上的自注意力得到特征图R1、R2、R3;
通过mean操作将R1、R2、R3的head合并;将上述输出特征图分别输入全连接层,进行Drop Out操作后输出O1、O2、O3;将O1、O2、O3分别与特征图7、8、9相加得到特征图11、12、13;对特征图11、12、13进行Layer Norm操作及MLP操作;
将MLP操作后输出分别与特征图11、12、13相加得到特征图14、15、16;
步骤3.3:将步骤3.2重复三次,对对应输出特征图分别进行Layer Norm操作;通过维度变换操作使特征图尺寸由[B,Patch,C]转化为[B,D,H,W,C],得到特征图17、18、19;其中B代表训练中的Batch Size;Patch代表在自注意力操作中Query、Key与Value的个数;C代表通道数;D、H、W代表特征图的长、高、宽;
步骤3.4:输出三次重复步骤2.2中的Key、Value得到k11、k12、k13、v11、v12、v13;输出三次重复步骤2.3中的Key、Value得到k21、k22、k23、v21、v22、v23;
步骤3.5:将特征图10进行SE注意力机制操作与softmax操作,将按通道数分割后得到结果与特征图17、18、19在通道方向上做torch.cat操作;通过填充与卷积操作将上述输出特征图尺寸转化为与其对应的步骤3.1输入的特征图尺寸相同,输出结果特征图;将上述输出特征图分别与步骤2.2重复三次的输入结果相加得到特征图20、21、22。
6.根据权利要求4所述的一种双重特征融合MRA图像的颅内动脉瘤分割方法,其特征在于,所述步骤4包括:
步骤4.1:通过flatten与transpose操作将特征图6尺寸变为[B,H×W×D,C];将上述输出特征图通过全连接层上采样至[B,H×W×D,2×C];上述输出特征图通过view操作将其尺寸调整至[B,D,H,W,2×C];通过rearrange操作将上述输出特征图尺寸调整至[B,D,2×H,2×W,C/2];将上述输出特征图进行Layer Norm操作;
步骤4.2:使用torch.cat操作将输入特征图22和步骤4.1中输出特征图在通道维度上合并;将上述输出特征图通过全连接层将其通道数减半,然后分为两路分别进行步骤2.2中的操作,其中一路操作中Key与Value使用步骤3.4中的k13、v13代替获得特征图23,另一路操作仍用原本的Key与Value获得特征图24;使用Swin Transformer中的位置编码方式对特征图24添加3D位置信息输出特征图25;并把特征图23、24、25通过线性运算获得特征图26;其中,特征图25的得出过程如下:
output=0.5x1+0.5x2+MLP(PositionalEncoding(x1));
其中output为输出的特征图25,x1为特征图24,x2为特征图23;
步骤4.3:再次将上述特征图分为两路分别进行步骤2.3中的操作,其中一路操作中Key与Value使用步骤3.4中的k23、v23代替获得特征图27,另一路操作仍用原本的Key与Value获得特征图28;使用Swin Transformer中的PositionalEncoding3D对特征图28添加3D位置信息输出特征图29;并把特征图27、28、29通过线性运算获得特征图30;
步骤4.4:按照步骤4.1方式对特征图30进行上采样,输出上采样后特征图;
步骤4.5:对上述输出特征图重复进行步骤4.2、步骤4.3、步骤4.4操作,其中步骤4.2的输入改为步骤4.4输出特征图和特征图21,其中步骤4.2中的一路Key、Value用步骤3.4中的k12、v12代替,步骤4.3中的一路Key、Value用步骤3.4中的k22、v22代替,输出特征图;
步骤4.6:对步骤4.5输出特征图重复进行步骤4.2、步骤4.3操作,其中步骤4.2的输入改为步骤4.5输出特征图和特征图20,其中步骤4.2中的一路Key、Value用步骤3.4中的k11、v11代替,步骤4.3中的一路Key、Value用步骤3.4中的k21、v21代替;
步骤4.7:对步骤4.6输出特征图进行Layer Norm操作;
步骤4.8:将步骤4.7输出的特征图输入全连接层,进行Layer Norm操作,使其复原为与网络输入尺寸相同的特征图,输出分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210940594.9A CN115147404A (zh) | 2022-08-06 | 2022-08-06 | 一种双重特征融合mra图像的颅内动脉瘤分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210940594.9A CN115147404A (zh) | 2022-08-06 | 2022-08-06 | 一种双重特征融合mra图像的颅内动脉瘤分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115147404A true CN115147404A (zh) | 2022-10-04 |
Family
ID=83414287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210940594.9A Pending CN115147404A (zh) | 2022-08-06 | 2022-08-06 | 一种双重特征融合mra图像的颅内动脉瘤分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115147404A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402779A (zh) * | 2023-03-31 | 2023-07-07 | 北京长木谷医疗科技有限公司 | 基于深度学习注意力机制的颈椎图像分割方法及装置 |
CN117392137A (zh) * | 2023-12-13 | 2024-01-12 | 山东科技大学 | 一种颅内动脉瘤图像检测方法、系统、设备及介质 |
-
2022
- 2022-08-06 CN CN202210940594.9A patent/CN115147404A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402779A (zh) * | 2023-03-31 | 2023-07-07 | 北京长木谷医疗科技有限公司 | 基于深度学习注意力机制的颈椎图像分割方法及装置 |
CN117392137A (zh) * | 2023-12-13 | 2024-01-12 | 山东科技大学 | 一种颅内动脉瘤图像检测方法、系统、设备及介质 |
CN117392137B (zh) * | 2023-12-13 | 2024-02-13 | 山东科技大学 | 一种颅内动脉瘤图像检测方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pinaya et al. | Unsupervised brain imaging 3D anomaly detection and segmentation with transformers | |
Huang et al. | Coronary artery segmentation by deep learning neural networks on computed tomographic coronary angiographic images | |
CN108629816B (zh) | 基于深度学习进行薄层磁共振图像重建的方法 | |
CN115147404A (zh) | 一种双重特征融合mra图像的颅内动脉瘤分割方法 | |
CN111354002A (zh) | 一种基于深度神经网络的肾脏及肾脏肿瘤分割方法 | |
CN111429474B (zh) | 基于混合卷积的乳腺dce-mri图像病灶分割模型建立及分割方法 | |
CN111815766B (zh) | 基于2d-dsa图像重建血管三维模型处理方法及系统 | |
CN111696126B (zh) | 一种基于多视角的多任务肝脏肿瘤图像分割方法 | |
CN111724397B (zh) | 一种颅脑ct图像出血区域自动分割方法 | |
JP2023540910A (ja) | 病変検出のための共同訓練を伴う接続機械学習モデル | |
CN113393469A (zh) | 基于循环残差卷积神经网络的医学图像分割方法和装置 | |
Folle et al. | Dilated deeply supervised networks for hippocampus segmentation in MRI | |
CN113052936A (zh) | 集成fdk和深度学习的单视角ct重建方法 | |
CN113240654A (zh) | 一种多维度特征融合的颅内动脉瘤检测方法 | |
CN112465754A (zh) | 基于分层感知融合的3d医疗图像分割方法、装置及存储介质 | |
CN117422788B (zh) | 一种基于ct脑梗图像生成dwi图像的方法 | |
CN112767374A (zh) | 基于mri的阿尔茨海默症病灶区域语义分割算法 | |
US20230162353A1 (en) | Multistream fusion encoder for prostate lesion segmentation and classification | |
CN116433654A (zh) | 一种改进的U-Net网络实现脊柱整体分割方法 | |
US20220287647A1 (en) | Disease classification by deep learning models | |
CN116258732A (zh) | 一种基于pet/ct图像跨模态特征融合的食管癌肿瘤靶区分割方法 | |
Zhang et al. | Research on brain glioma segmentation algorithm | |
Lu et al. | An Alzheimer's disease classification method based on ConvNeXt | |
Kang et al. | Diagnosing oral and maxillofacial diseases using deep learning | |
Bi et al. | Hyper-Connected Transformer Network for Multi-Modality PET-CT Segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |