CN117496144A - 一种应用于皮损分割的多注意力编解码器网络和系统 - Google Patents
一种应用于皮损分割的多注意力编解码器网络和系统 Download PDFInfo
- Publication number
- CN117496144A CN117496144A CN202311447976.9A CN202311447976A CN117496144A CN 117496144 A CN117496144 A CN 117496144A CN 202311447976 A CN202311447976 A CN 202311447976A CN 117496144 A CN117496144 A CN 117496144A
- Authority
- CN
- China
- Prior art keywords
- attention
- network
- features
- module
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 27
- 206010040844 Skin exfoliation Diseases 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 230000002776 aggregation Effects 0.000 claims abstract description 17
- 238000004220 aggregation Methods 0.000 claims abstract description 17
- 230000003902 lesion Effects 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 206010040882 skin lesion Diseases 0.000 claims description 12
- 231100000444 skin lesion Toxicity 0.000 claims description 12
- 208000028990 Skin injury Diseases 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 11
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000003860 storage Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004195 computer-aided diagnosis Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 208000000453 Skin Neoplasms Diseases 0.000 description 4
- 238000002679 ablation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 201000000849 skin cancer Diseases 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 201000001441 melanoma Diseases 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037062 Polyps Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000037380 skin damage Effects 0.000 description 1
- 208000017520 skin disease Diseases 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30088—Skin; Dermal
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种应用于皮损分割的多注意力编解码器网络和系统,包括:使用金字塔视觉变压器(PVT)作为特征提取主干网络。然后在网络的深层加入多重注意力融合(MAF)方法,以深入挖掘编码器阶段得到的丰富语义信息,并初步定位病变区域。在编码器和解码器之间,使用选择性信息聚合(SIG)方法代替传统的跳连接,以缓解编码器和解码器之间的语义差异,并获取更高效的跳连接。最后,采用多尺度级联融合(MSCF)方法,动态融合解码器不同阶段的特征。本发明的优点在于:提高分割结果的准确性,加快网络训练的速度和提高效率,具有很好的灵活性、适应性和通用性。
Description
技术领域
本发明涉及计算机视觉和图像处理技术领域,特别涉及一种利用具有选择性和动态融合功能的多注意力编解码器网络(MASDF-Net)和系统进行皮损分割。
背景技术
皮肤癌是世界范围内最常见的恶性肿瘤之一,在全球疾病负担中占1.79%。其中黑色素瘤被认为是最致命的皮肤癌,在因皮肤癌死亡的病例中,75%来自于黑色素瘤。幸运的是如果这种类型的皮肤癌能够在早期被发现,并得到有效的治疗,其存活率能够提升到99%以上。皮肤镜检查是诊断黑色素瘤的基本手段之一,然而由皮肤科医生根据皮肤镜图像进行人工检查的过程通常很耗时,并且需要高度的技能和注意力,容易出现操作者的偏差。为了协助皮肤科医生解决这些问题,尤其当短时间内需要处理大量病人时,计算机辅助诊断(CAD)成为皮肤科医生决策时的有效工具。皮肤镜图像的自动分割是CAD中的一个重要步骤。然而由于病变区域的复杂多变,这项任务相当具有挑战性。首先,病变区域的形状通常大小不规则,颜色分布不均匀。其次在病变早期,病变区域与周围皮肤的对比度较低,导致区域边界模糊。此外病变区域还很可能被毛发、气泡等伪影所遮挡。因此,开发出一种能自动、准确地进行皮肤病变分割的算法对协助皮肤科医生进行临床诊断具有重要意义.
传统的皮损分割算法如阈值化、区域合并和主动轮廓法,不但计算复杂而且鲁棒性差,难以应对复杂的皮肤病变场景。相比之下,基于卷积神经网络(CNN)的深度学习模型不但能自适应地学习皮肤病变区域的边界特征,并且在性能和准确性上优于传统的解决方案。然而经典的CNN架构无法实现像素级别的预测,直到全卷积神经网络(FCN)[1]的出现,它用卷积层代替了最后的全连接层,实现了端对端、像素对像素的训练,实现了更好的语义分割。由于FCN在图像分割任务上的良好表现,大量基于FCN的编解码结构网络被提出。例如以DeepLabv3+[2]为代表的非对称网络和以SegNet[3]和U-Net[4]为代表的对称网络。其中U-Net无疑是在医学图像分割领域应用最广泛的网络,其衍生的各种变体如Attention-UNet,UNet++,Double-UNet等受到了研究者的广泛关注。
自2015年推出以来,U-Net在医学图像分割的应用上经历了爆炸式的增长。U-Net的基本结构由编码器和解码器组成。该编码器类似于卷积网络,通常由多个卷积层和池化层组成,负责从输入图像中提取高级语义特征。解码器负责将编码器提取的抽象语义特征重新映射到输入图像空间,恢复像素级细节信息。与FCN不同的是,U-Net使用跳连接以融合来自编码器和解码器的特征,从而保留更多的细节和边界信息。
虽然基于U-Net的皮肤病变分割方法已经显示出其优越性,但由于皮肤镜图像的复杂性,目前大多数方法仍存在以下问题:
(1)网络受到卷积操作固有的局部属性的限制,无法捕获到长距离依赖关系。
(2)连续的降采样操作会导致高级特征位置信息的丢失和像素间全局依赖关系的丢失。
跳连接的引入可能会导致低级特征的过度强调,而忽略了更高级别的语义信息,从而影响了模型的性能。
缩略语和关键术语定义
CAD(Computer aided diagnosis计算机辅助诊断)
CNN(Convolutional neural network卷积神经网络)
PVT(Pyramid vision transformer金字塔视觉变换器)
MAF(Multi-attention fusion多重注意力融合)
SIG(Selective information gathering选择性信息聚合)
MSCF(Multi-scale cascade fusion多尺度级联融合)
参考文献
[1]E.Shelhamer,J.Long,T.Darrell,Fully convolutional networks forsemanticsegmentation,IEEE Transactions on Pattern Analysis and MachineIntelligence 39(4)(2017)640–651;
[2]L.-C.Chen,Y.Zhu,G.Papandreou,F.Schroff,H.Adam,Encoder-decoderwithatrous separable convolution for semantic image segmentation,in:Proceedingsofthe European Conference on Computer Vision(ECCV),2018,pp.833–851;
[3]V.Badrinarayanan,A.Kendall,R.Cipolla,SegNet:A deepconvolutionalencoder-decoder architecture for image segmentation,IEEETransactions on PatternAnalysis and Machine Intelligence 39(12)(2017)2481–2495;
[4]O.Ronneberger,P.Fischer,T.Brox,U-Net:Convolutional networksforbiomedical image segmentation,in:Medical Image Computing and Computer-AssistedIntervention–MICCAI 2015,2015,pp.234–241;
[5]W.Wang,E.Xie,X.Li,D.-P.Fan,K.Song,D.Liang,T.Lu,P.Luo,L.Shao,Pyramid vision transformer:A versatile backbone for dense predictionwithoutconvolutions,in:Proceedings of the IEEE/CVF International Conferenceon ComputerVision,2021,pp.568–578;
[6]Y.Cao,J.Xu,S.Lin,F.Wei,H.Hu,GCNet:Non-local networks meetsqueeze-excitation networks and beyond,in:2019IEEE/CVF International ConferenceonComputer Vision Workshop(ICCVW),2019,pp.1971–1980;
[7]S.Woo,J.Park,J.-Y.Lee,I.S.Kweon,CBAM:Convolutional blockattentionmodule,in:Computer Vision–ECCV 2018,2018,pp.3–19;
[8]X.Wang,R.Girshick,A.Gupta,K.He,Non-local neural networks,in:2018IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018,pp.7794–7803;
[9]Z.Huang,X.Wang,L.Huang,C.Huang,Y.Wei,W.Liu,CCNet:Criss-crossattention for semantic segmentation,in:2019IEEE/CVF InternationalConference onComputer Vision(ICCV),2019,pp.603–612。
发明内容
本发明针对现有技术的缺陷,提供了一种应用于皮损分割的多注意力编解码器网络和系统。在传统的U形网络基础上进行了改进。在编码器阶段,MASDF-Net使用金字塔视觉变换器(PVT)作为特征提取主干,取代了U-Net中的卷积层。这样可以更好地建模病变位置之间的远程依赖关系,提取更具语义信息的特征。在网络的深层,MASDF-Net引入了多重注意力机制(MAF),深入挖掘编码器阶段丰富的语义信息,初步定位病变区域。由于编码器阶段的低级特征和解码器阶段的高级特征之间存在语义差异,传统的跳连接会引入无关噪声。为了解决这个问题,MASDF-Net设计了基于交叉注意力的选择性信息聚合(SIG)方法,以获取更高效的跳连接,减少无关噪声的影响。在解码器阶段,不同层次之间的特征图包含了不同的上下文信息。低分辨率的特征包含更多的语义信息,而高分辨率的特征包含更多的位置和边界信息。因此,MASDF-Net采用多尺度级联融合(MSCF)方法,动态融合解码器不同阶段的特征,以精确地定位病变的边界。通过以上改进,MASDF-Net能够更准确地进行皮肤损伤的分割,提高分割的精度和效率。
为了实现以上发明目的,本发明采取的技术方案如下:
一种应用于皮损分割的多注意力编解码器网络,包括:
使用金字塔视觉变压器(PVT)作为特征提取主干网络。然后在网络的深层加入多重注意力融合(MAF)方法,以深入挖掘编码器阶段得到的丰富语义信息,并初步定位病变区域。在编码器和解码器之间,使用选择性信息聚合(SIG)方法代替传统的跳连接,以缓解编码器和解码器之间的语义差异,并获取更高效的跳连接。最后,采用多尺度级联融合(MSCF)方法,动态融合解码器不同阶段的特征,以精确地定位病变的边界。
进一步地,所述MAF方法通过多层感知机(MLP)结合空间注意力图来融合特征,以提取更丰富的上下文信息。具体步骤如下:
1)对输入特征X进行两个并行的池化操作,即全局平均池化和全局最大池化,并使用一个1×1大小的卷积操作来生成二维的空间注意力图Sa(X)。Sa(X)可以捕获到输入特征的空间依赖关系。
2)将空间注意力图Sa(X)进行转置,并与输入特征X做矩阵乘法,得到通过空间注意力加权的特征。
3)将加权特征输入到MLP中,以进一步加强特征的表达能力。
4)最后,将MLP的输出与输入特征进行加权融合,得到最终的输出特征Y。这样可以增强全局上下文信息,并抑制无关信息。
进一步地,MAF的具体步骤总结如下:
Sa(X)=Softmax((f1×1([Pavg(X);Pmax(X)]))T) (1)
其中,Sa(·)代表空间注意力操作,f1×1代表卷积核大小为1×1的卷积操作,Pavg(·)和Pmax(·)分别表示全局平均池化和全局最大池化,代表矩阵乘法,T代表矩阵转置运算。
进一步地,所述SIG方法通过交叉注意力机制,在编码器和解码器之间进行选择性的信息聚合,以充分利用低级特征的位置信息和高级特征的语义信息。具体步骤如下:
1)给定编码器和解码器的对称特征映射F和D,分别使用1×1卷积在F上生成特征映射Q,在D上生成特征映射K和V。
2)对特征映射Q和K进行亲和操作,生成注意力权重图。这个权重图可以衡量编码器和解码器之间每个像素点的相关性。
3)将注意力权重图与特征映射V进行聚合操作,得到第一阶段的输出。这样编码器中的每个像素点都能从解码器中相应的水平和垂直位置收集信息。
4)设置了两个循环,使编码器间接获得解码器中的完整上下文信息。
5)最后,将第一阶段的输出与解码器的特征映射D在通道上进行跳拼接,完成选择性信息聚合操作。
进一步地,所述MSCF方法通过级联模块和尺度感知模块,有效集成了不同层次的特征。具体步骤如下:
1)通过级联模块对不同分辨率的特征进行处理。其中,X1是拥有较高分辨率并包含详细空间位置信息的特征。X2,X3和X4是分辨率较低但包含更多语义信息的特征。通过一系列卷积单元将X2,X3和X4的通道数进行调整,得到对应的X2′,X3′和X4′。
2)利用级联模块将X2′,X3′和X4′进行特征融合。级联模块的输出定义为X1′=CM(X2′,X3′,X4′),其中CM代表级联模块。
3)为了动态平衡不同尺度之间的权重,引入尺度感知模块。将X1′和X在通道上进行拼接,然后通过卷积层和softmax层得到空间上的像素级映射A和A′。
4)对两种不同尺度的特征进行加权求和,得到最终的输出特征图Xfusion。其中,Xfusion=X1⊙A+X1′⊙B,⊙代表阿达玛乘积。
本发明还公开了一种基于上述多注意力编解码器网络的皮损分割系统,包括:
输入预处理模块:对输入图像进行预处理,包括尺寸调整、归一化,以便输入到网络中进行处理。
前骨干网络:使用预训练的金字塔视觉变换器(PVT)作为MASDF-Net的前骨干网络,用于提取图像特征。
多尺度特征提取模块:利用前骨干网络提取的特征,通过多尺度特征提取模块,获取不同分辨率和语义的特征图。
多尺度级联融合模块:通过级联模块和尺度感知模块,将不同尺度的特征进行融合,得到融合的输出特征图。
输出预测模块:使用卷积层和softmax层对融合的输出特征图进行处理,得到皮肤损伤的像素级映射,用于表示皮肤损伤的位置。
后处理模块:对输出的像素级映射进行后处理,包括阈值化、连通域分析,以获得最终的皮肤损伤分割结果。
与现有技术相比,本发明的优点在于:
1.高准确性:MASDF-Net采用了多尺度特征提取和多尺度级联融合的机制,能够捕获不同尺度和语义的特征信息,从而提高分割结果的准确性。
2.强鲁棒性:MASDF-Net通过尺度感知模块和级联模块的设计,能够有效处理不同尺度和形状的皮肤损伤,具有较强的鲁棒性。
3.高效性:MASDF-Net采用了预训练的深度卷积神经网络作为前骨干网络,可以利用已有的大规模数据集进行迁移学习,加快网络训练的速度和提高效率。
4.实用性:MASDF-Net是专门为皮肤损伤分割任务设计的网络模型,可以广泛应用于医学领域和皮肤疾病的诊断与治疗等实际应用场景中。
5.改善跳连接过程:MASDF-Net通过改善传统编解码器网络中跳连接的过程,有效减轻了皮肤镜图像中毛发、伪影等无关噪声的影响,提高了分割结果的准确性。
6.动态特征融合:MASDF-Net通过MSCF方法动态地融合了不同层次之间的特征,这使得即使在面临复杂和模糊的边界情况下,网络也能准确地定位出边界信息,提高了分割的精度。
7.即插即用特性:MASDF-Net的方法具有即插即用的特性,可以方便地应用于现有的编解码器网络,无需重新设计整个网络结构,提高了方法的灵活性和实用性。
8.强泛化能力:MASDF-Net在四个公共皮肤损伤数据集上进行了实验,结果表明其在性能和泛化性能方面均达到了最优水平,说明该方法对于不同数据集和皮肤损伤类型都具有很好的适应性和通用性。
附图说明
图1是本发明实施例MASDF-Net的整体结构,图中PVT v2 backbone代表PVTv2主干网络Downsampling代表下采样,Conv代表卷积,Upsampling代表上采样,Feature Flow代表特征流动,Bilinear interpolation代表双线性插值,Conv Layer代表卷积层。
图2是本发明实施例多重注意力融合方法的结构示意图,图中MaxPool代表最大池化,AvgPool代表平均池化,Reshape代表矩阵重塑,Transpose代表矩阵转置。MLP代表多层感知机。Concatenation代表通道拼接,Softmax是归一化指数函数,Matrixmultiplication代表矩阵乘法,Addition代表矩阵加法。
图3是本发明实施例选择性信息聚合方法的结构示意图,图中Affinity亲和操作,aggregation代表聚合操作。
图4是本发明实施例多尺度级联融合方法的结构示意图,图中HadamardProduct代表哈达玛积,Concatenation代表通道拼接,Upsampling代表上采样,Conv代表卷积,ReLu代表激活函数,BN代表批量归一化。Cascade module代表级联模块,Scale-aware module代表尺度感知模块。
图5是本发明实施例所提出的MASDF-Net与最先进的方法的性能比较图。最佳结果用粗体表示。Params(M)代表参数量,FLOPs(G)代表浮点运算次数,Dataset代表数据集,Type代表不同类型的方法,CNN代表基于卷积神经网络的方法,Trans代表使用了引入Transformer的网络。
图6是本发明实施例对ISIC 2018和PH2数据集进行跨数据集测试图,其中使用ISIC 2018作为训练集,使用PH2作为测试集。最佳结果用粗体表示。
图7是本发明实施例在ISIC 2018数据集上进行的消融实验的定量结果图。最佳结果用粗体表示。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
一、MASDF-Net的总体结构
如图1所示,所提出的具有选择性和动态融合的多注意力编解码器网络结构即MASDF-Net:在传统U-Net的基础上,使用金字塔视觉变压器(PVT)作为特征提取主干主干网络,同时在网络深层加入多重注意力融合(MAF)方法,并使用选择性信息聚合(SIG)方法代替跳连接,最后利用多尺度级联融合(MSCF)方法整合解码器阶段不同层次的特征。
二、多重注意力融合方法
注意力机制可以用来加强有效特征,抑制无关信息。然而现有的方法通常只关注一两种注意力机制。为了在网络深层能提取更多的上下文信息,受到GCNet[6]和CBAM[7]的启发,本发明提出了一种多重注意力融合(MAF)方法。如图2所示,输入特征通过两个并行的池化操作和一个1×1大小的卷积来产生二维的空间注意力图。随后将其转置并与输入特征做矩阵乘法,并输入多层感知机(MLP)。这里就获得了一个既捕获到长局依赖关系,又加强了空间特征的一维通道注意力图。最后将其与输入特征融合以增强全局上下文信息。
将输入特征映射设置为X,将输出特征映射设置为Y。MAF的具体步骤可以总结如下:
Sa(X)=Softmax((f1×1([Pavg(X);Pmax(X)]))T) (1)
其中Sa(·)代表空间注意力操作,f1×1代表卷积核大小为1×1的卷积操作,Pavg(·)和Pmax(·)分别表示全局平均池化和全局最大池化,代表矩阵乘法,T代表矩阵转置运算。
三、选择性信息聚合方法
如图3所示,在U形网络中,编码器部分由于连续的下采样会导致位置信息的丢失,跳连接的设计可以将低级特征的位置信息与高级特征的语义信息相融合来丰富空间细节。然而由于编码器和解码器之间的语义差异,简单的跳连接会引入不相关的噪声和歧义。为了在关注低级特征中位置信息的同时,也能关注到高级特征中丰富的语义信息,本发明设计了基于交叉注意力的选择性信息聚合方法,如图所示。值得一提的是,注意力的计算与常规的非局部块(non-local block)[8]不同,本发明采用CCNet[9]中的十字交叉注意力来提高运算效率。给定编码和解码阶段的两个对称特征映射F和D,使用1×1卷积在F上生成特征映射Q,在D上生成特征映射K和V,对Q和K利用亲和操作生成注意力权重图,随后将其与V进行聚合操作得到第一阶段的输出,由于交叉注意只能使F中的每个像素点从D中相应的水平和垂直位置收集信息,因此设置了两个循环,使F间接获得D中的完整的上下文信息。最后,将它与D在通道上进行跳拼接,以完成一个更有效的跳连接操作。
四、多尺度级联融合方法
如图4所示,为了更有效地集成不同层次的特征,提出了一个由级联模块和尺度感知模块组成的多尺度级联融合(MSCF)方法。
Cascade module代表级联模块,Scale-aware module代表尺度感知模块。
其中X1拥有较高分辨率并且包含详细的空间位置信息。对于分辨率较低但包含更多语义信息的X2,X3和X4,先分别通过一系列卷积单元将它们的通道数进行调整,得到X2′,X3′和X4′。利用最近最流行的实践来完成X2′,X3′和X4′的特征融合。将级联模块的输出定义为X1′=CM(X2′,X3′,X4′)。为了能动态平衡不同尺度之间权重,引入了尺度感知模块。具体来说,将X1’和X在通道上进行拼接并送入卷积层和softmax层得到空间上的像素级映射A和A′.最后对两种不同尺度的特征进行加权求和得到最终的输出:
Xfusion=X1⊙A+X1′⊙B
其中,Xfusion代表融合的输出特征图,⊙代表阿达玛乘积。
五、实验
5.1数据集
为了比较本发明与现有技术的性能,在四个公共皮肤损伤数据集上进行了广泛的实验,包括ISIC 2016,ISIC 2017,ISIC 2018和PH2。这四个数据集的详细信息如下:
ISIC 2016数据集包含1297张JPEG格式的皮肤镜病变图像以及PNG格式的真值图像(二进制掩模图像),其中900张图像用于训练,379张图像用于测试。
ISIC 2017是一个扩展的数据集,提供了2000个训练集、150个验证集和600个测试集。
ISIC 2018数据集由2594张RGB图像和相应的真值图像组成。在实验中,把它随机分为训练(70%)、验证(10%)和测试集(20%)。
PH2是一个仅包含200张皮镜图像的小数据集,本文用于评价模型的泛化能力。
5.2本实施例训练配置
本实施例将所提出的MASDF-Net与10种最先进的医学图像分割网络进行比较,包括:U-Net,AttU-Net,Deeplabv3+,CE-Net,CPFNet,MSCA-Net,Swin-Unet,TransFuse,UCTransNet和Polyp-PVT。其中前六种是基于纯CNN的网络,后四种是引入Transformer的网络。为确保实验的公平性,所有网络均在相同实验环境下重新训练。并且为了遵循ISIC挑战的要求,将Jaccard指数(JI)作为评估网络分割性能的最重要指标,其次依次是骰子评分系数(DSC),准确性(ACC),敏感性(SE)和特异性(SP)。如图5所示所提出的MASDF-Net在三个数据集上的分割性能均表现为最好。从图6可以看出所提出的MASDF-Net在泛化性上同时也是表现得最好的。
5.3本实施例训练配置
所提出的MASDF-Net在Pytorch库中实现,并利用NVIDIA GeForce RTX 3070显卡来加速计算。使用Adam优化器来进行端到端训练。学习速率被设置为0.0001,批处理大小(batch size)被设置为16,最大训练迭代次数为100,采用在验证集上Jaccard指数得分最高的方法来作为评估模型,并检测其在测试集上的性能。此外,将所有图像缩放到224×224,并在将其输入模型之前对其进行数据增强操作,如随机旋转、水平倒置和颜色抖动等。
5.3消融实验
为了验证在本发明MASDF-Net中所提出的关键方法的有效性,在ISIC 2018数据集上进行了一系列的消融实验。主要比较了以下模型:
基线:由一个以PVT v2为编码器的U-Net组成。
模型1:基线+MAF方法。
模型2:基线+SIG方法。
模型3:基线+MAF方法。
模型4:基线+SIG+MAF方法。
模型5:基线+MSCF+MAF方法。
模型6:基线+SIG+MSCF方法。
模型7:(MASDF-Net):基线+MAF+SIG+MSCF方法。
图7提供了消融实验的定量结果。与基线相比,模型1-3显示JI分别提高了1.02%、1.27%和1.38%,证实了MAF、SIG和MSCF方法在提高分割性能方面的有效性。值得注意的是,与基线相比,模型2实现了显著的性能改善,仅增加了0.15M参数和0.11G FLOPs。这一观察结果反映了SIG模块在计算负担和内存消耗方面的优势。此外,可以观察到,模型4-7通过合并模型1-3之外的其他模块,实现了进一步的性能增强。这一观察结果强调了MAF、SIG和MSCF方法的协同效应,表明所提出的MASDF-Net的强大性能归因于这些模块之间的协同作用。
本发明再一个实施例中,提供了一种基于多注意力编解码器网络的皮损分割系统,包括:
输入预处理模块:对输入图像进行预处理,包括尺寸调整、归一化,以便输入到网络中进行处理。
前骨干网络:使用预训练的金字塔视觉变换器(PVT)作为MASDF-Net的前骨干网络,用于提取图像特征。
多尺度特征提取模块:利用前骨干网络提取的特征,通过多尺度特征提取模块,获取不同分辨率和语义的特征图。
多尺度级联融合模块:通过级联模块和尺度感知模块,将不同尺度的特征进行融合,得到融合的输出特征图。
输出预测模块:使用卷积层和softmax层对融合的输出特征图进行处理,得到皮肤损伤的像素级映射,用于表示皮肤损伤的位置。
后处理模块:对输出的像素级映射进行后处理,包括阈值化、连通域分析,以获得最终的皮肤损伤分割结果。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于皮损分割的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关皮损分割的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (6)
1.一种应用于皮损分割的多注意力编解码器网络,其特征在于,包括:
使用金字塔视觉变压器(PVT)作为特征提取主干网络;然后在网络的深层加入多重注意力融合(MAF)方法,以深入挖掘编码器阶段得到的丰富语义信息,并初步定位病变区域;在编码器和解码器之间,使用选择性信息聚合(SIG)方法代替跳连接,缓解编码器和解码器之间的语义差异,并获取更高效的跳连接;最后,采用多尺度级联融合(MSCF)方法,动态融合解码器不同阶段的特征,以精确地定位病变的边界。
2.根据权利要求1所述的多注意力编解码器网络,其特征在于:所述MAF方法通过多层感知机(MLP)结合空间注意力图来融合特征,以提取更丰富的上下文信息;具体步骤如下:
1)对输入特征X进行两个并行的池化操作,即全局平均池化和全局最大池化,并使用一个1×1大小的卷积操作来生成二维的空间注意力图Sa(X);Sa(X)可以捕获到输入特征的空间依赖关系;
2)将空间注意力图Sa(X)进行转置,并与输入特征X做矩阵乘法,得到通过空间注意力加权的特征;
3)将加权特征输入到MLP中,以进一步加强特征的表达能力;
4)最后,将MLP的输出与输入特征进行加权融合,得到最终的输出特征Y。
3.根据权利要求2所述的多注意力编解码器网络,其特征在于:MAF的具体步骤总结如下:
Sa(X)=Softmax((f1×1([Pavg(X);Pmax(X)]))T) (1)
其中,Sa(·)代表空间注意力操作,f1×1代表卷积核大小为1×1的卷积操作,Pavg(·)和Pmax(·)分别表示全局平均池化和全局最大池化,代表矩阵乘法,T代表矩阵转置运算。
4.根据权利要求1所述的多注意力编解码器网络,其特征在于:所述SIG方法通过交叉注意力机制,在编码器和解码器之间进行选择性的信息聚合,以充分利用低级特征的位置信息和高级特征的语义信息;具体步骤如下:
1)给定编码器和解码器的对称特征映射F和D,分别使用1×1卷积在F上生成特征映射Q,在D上生成特征映射K和V;
2)对特征映射Q和K进行亲和操作,生成注意力权重图;这个权重图可以衡量编码器和解码器之间每个像素点的相关性;
3)将注意力权重图与特征映射V进行聚合操作,得到第一阶段的输出;这样编码器中的每个像素点都能从解码器中相应的水平和垂直位置收集信息;
4)设置了两个循环,使编码器间接获得解码器中的完整上下文信息;
5)最后,将第一阶段的输出与解码器的特征映射D在通道上进行跳拼接,完成选择性信息聚合操作。
5.根据权利要求1所述的多注意力编解码器网络,其特征在于:所述MSCF方法通过级联模块和尺度感知模块,有效集成了不同层次的特征;具体步骤如下:
1)通过级联模块对不同分辨率的特征进行处理;其中,X1是拥有较高分辨率并包含详细空间位置信息的特征;X2,X3和X4是分辨率较低但包含更多语义信息的特征;通过一系列卷积单元将X2,X3和X4的通道数进行调整,得到对应的X2′,X3′和X4′;
2)利用级联模块将X2′,X3′和X4′进行特征融合;级联模块的输出定义为X1′=CM(X2′,X3′,X4′),其中CM代表级联模块;
3)为了动态平衡不同尺度之间的权重,引入尺度感知模块;将X1′和X在通道上进行拼接,然后通过卷积层和softmax层得到空间上的像素级映射A和A′;
4)对两种不同尺度的特征进行加权求和,得到最终的输出特征图Xfusion;其中,Xfusion=X1⊙A+X1′⊙B,⊙代表阿达玛乘积。
6.一种皮损分割系统,其特征在于:该皮损分割系统基于权利要求1至5其中一项所述的多注意力编解码器网络;
具体包括:
输入预处理模块:对输入图像进行预处理,包括尺寸调整、归一化,以便输入到网络中进行处理;
前骨干网络:使用预训练的深度卷积神经网络作为MASDF-Net的前骨干网络,用于提取图像特征;
多尺度特征提取模块:利用前骨干网络提取的特征,通过多尺度特征提取模块,获取不同分辨率和语义的特征图;
多尺度级联融合模块:通过级联模块和尺度感知模块,将不同尺度的特征进行融合,得到融合的输出特征图;
输出预测模块:使用卷积层和softmax层对融合的输出特征图进行处理,得到皮肤损伤的像素级映射,用于表示皮肤损伤的位置;
后处理模块:对输出的像素级映射进行后处理,包括阈值化、连通域分析,以获得最终的皮肤损伤分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311447976.9A CN117496144A (zh) | 2023-11-02 | 2023-11-02 | 一种应用于皮损分割的多注意力编解码器网络和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311447976.9A CN117496144A (zh) | 2023-11-02 | 2023-11-02 | 一种应用于皮损分割的多注意力编解码器网络和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117496144A true CN117496144A (zh) | 2024-02-02 |
Family
ID=89668456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311447976.9A Pending CN117496144A (zh) | 2023-11-02 | 2023-11-02 | 一种应用于皮损分割的多注意力编解码器网络和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496144A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745745A (zh) * | 2024-02-18 | 2024-03-22 | 湖南大学 | 一种基于上下文融合感知的ct图像分割方法 |
CN118015283A (zh) * | 2024-04-08 | 2024-05-10 | 中国科学院自动化研究所 | 图像分割方法、装置、设备和存储介质 |
CN118229681A (zh) * | 2024-05-22 | 2024-06-21 | 安徽大学 | 结合PVT和U-Net深度学习的道路缺陷检测方法 |
-
2023
- 2023-11-02 CN CN202311447976.9A patent/CN117496144A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745745A (zh) * | 2024-02-18 | 2024-03-22 | 湖南大学 | 一种基于上下文融合感知的ct图像分割方法 |
CN117745745B (zh) * | 2024-02-18 | 2024-05-10 | 湖南大学 | 一种基于上下文融合感知的ct图像分割方法 |
CN118015283A (zh) * | 2024-04-08 | 2024-05-10 | 中国科学院自动化研究所 | 图像分割方法、装置、设备和存储介质 |
CN118015283B (zh) * | 2024-04-08 | 2024-08-27 | 中国科学院自动化研究所 | 图像分割方法、装置、设备和存储介质 |
CN118229681A (zh) * | 2024-05-22 | 2024-06-21 | 安徽大学 | 结合PVT和U-Net深度学习的道路缺陷检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Hookworm detection in wireless capsule endoscopy images with deep learning | |
Sarker et al. | SLSNet: Skin lesion segmentation using a lightweight generative adversarial network | |
Chan et al. | Texture-map-based branch-collaborative network for oral cancer detection | |
Alom et al. | Skin cancer segmentation and classification with NABLA-N and inception recurrent residual convolutional networks | |
Ilesanmi et al. | A method for segmentation of tumors in breast ultrasound images using the variant enhanced deep learning | |
Tang et al. | A multi-stage framework with context information fusion structure for skin lesion segmentation | |
CN117496144A (zh) | 一种应用于皮损分割的多注意力编解码器网络和系统 | |
Rehman et al. | RAAGR2-Net: A brain tumor segmentation network using parallel processing of multiple spatial frames | |
Li et al. | TA-Net: Triple attention network for medical image segmentation | |
Tang et al. | AFLN-DGCL: Adaptive feature learning network with difficulty-guided curriculum learning for skin lesion segmentation | |
Yamanakkanavar et al. | MF2-Net: A multipath feature fusion network for medical image segmentation | |
CN110570394A (zh) | 医学图像分割方法、装置、设备及存储介质 | |
Saha et al. | Brain tumour segmentation with a muti-pathway ResNet based UNet | |
Chen et al. | A spatio-temporal fully convolutional network for breast lesion segmentation in DCE-MRI | |
Zhang et al. | SDResU-net: separable and dilated residual U-net for MRI brain tumor segmentation | |
CN114677349B (zh) | 编解码端边缘信息增强和注意引导的图像分割方法及系统 | |
Hafhouf et al. | A modified U-Net for skin lesion segmentation | |
Chinnam et al. | Multimodal attention-gated cascaded U-Net model for automatic brain tumor detection and segmentation | |
Çetiner et al. | DenseUNet+: A novel hybrid segmentation approach based on multi-modality images for brain tumor segmentation | |
Yuan et al. | FM-Unet: Biomedical image segmentation based on feedback mechanism Unet | |
Abid et al. | A convolutional neural network for skin lesion segmentation using double u-net architecture | |
Tan et al. | Skin lesion recognition via global-local attention and dual-branch input network | |
Zeeshan Aslam et al. | AML‐Net: Attention‐based multi‐scale lightweight model for brain tumour segmentation in internet of medical things | |
Zhou et al. | Edge-aware Feature Aggregation Network for Polyp Segmentation | |
CN116703945A (zh) | 一种乳腺超声图像的肿瘤分割方法、系统、介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |