CN116563536A - 不确定性增强上下文注意力网络的息肉图像分割系统 - Google Patents
不确定性增强上下文注意力网络的息肉图像分割系统 Download PDFInfo
- Publication number
- CN116563536A CN116563536A CN202310398213.3A CN202310398213A CN116563536A CN 116563536 A CN116563536 A CN 116563536A CN 202310398213 A CN202310398213 A CN 202310398213A CN 116563536 A CN116563536 A CN 116563536A
- Authority
- CN
- China
- Prior art keywords
- attention
- module
- uncertainty
- polyp
- image segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037062 Polyps Diseases 0.000 title claims abstract description 110
- 238000003709 image segmentation Methods 0.000 title claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000004913 activation Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000010339 dilation Effects 0.000 claims description 4
- 230000003628 erosive effect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 13
- 230000007547 defect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 3
- 210000001072 colon Anatomy 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 208000014081 polyp of colon Diseases 0.000 description 3
- 206010009944 Colon cancer Diseases 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000035984 Colonic Polyps Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000002052 colonoscopy Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 210000002249 digestive system Anatomy 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003238 esophagus Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000762 glandular Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 210000004877 mucosa Anatomy 0.000 description 1
- 210000004400 mucous membrane Anatomy 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000004876 tela submucosa Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30028—Colon; Small intestine
- G06T2207/30032—Colon polyp
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了不确定性增强上下文注意力网络的息肉图像分割系统,包括:构建息肉图像的数据集;基于UACANet网络模型,构建息肉图像分割模型;基于所述数据集,对所述息肉图像分割模型进行训练和测试;基于测试后的所述息肉图像分割模型,进行息肉图像分割。本发明可以解决现有的息肉分割算法所采用的骨干网络对息肉边界分割不明显、外观尺寸大小存在差异导致难以检测及漏检率高,模型的表达能力不足,甚至最终导致模型泛化能力弱,模型深度变深,参数量变大等问题。
Description
技术领域
本发明属于计算机视觉的医学图像分割技术领域,尤其涉及不确定性增强上下文注意力网络的息肉图像分割系统。
背景技术
在消化系统中最常见的癌症发病部位是食道、胃和结肠,尤其是结肠上的发病率最为高。科学研究表明,在结肠部位发生病变之前,及时的检测和治疗是可以有效控制癌症的发生。结肠癌是由正常的粘膜向腺肿瘤突变长期积累发展而来的,肿瘤一般都是息肉状的,也存在一些无柄或者扁平状。在一些情况下,腺肿瘤会侵入粘膜下层从而发展为恶性肿瘤。虽然腺肿瘤发展为癌症的时间不确定,但一般多数都需要10年,医生可以在这段时间进行结肠息肉检查,通过观察息肉的腺肿瘤生长情况以评估息肉发展程度。
结肠镜检查是检测结肠息肉的有效技术,结肠息肉与结直肠癌高度相关。在临床实验中,从结肠镜图像中分割息肉非常重要,因为它为诊断和手术提供了有价值的信息。准确的息肉分割是一项很具有挑战性的任务,原因有两个:(Ⅰ)同一类型的息肉具有不同的大小、颜色和纹理;以及(Ⅱ)息肉与其周围粘膜之间的边界不尖锐。因此在临床上结肠镜的检测过程中可能会漏检某些息肉,导致息肉的漏检率高达6%。息肉的大小与病变的严重程度也会影响息肉的漏检率,医生很难发现直径在6-9毫米的小息肉,或者直径小于等于5毫米的微小息肉,并且一些肠道的并发症也会影响息肉的检测。采用计算机视觉技术,使用深度学习进行息肉分割辅助医生进行诊断,具有一定的社会价值。
随着人深度学习以及人工智能的发展,深度学习方法逐渐登上医学图像分割的舞台,逐渐成为当下的热点。在早期的息肉分割方法中,主要依赖于手工提取息肉的特征,如颜色、大小、纹理、外观或这些特征的组合。这些方法通常由分类器训练,来区分息肉和其周围环境。然而这些方法具有很高的漏检率。基于深度学习的结肠息肉分割方法可以很好的解决传统方法带来的问题,但是现有的基于深度学习的结肠息肉分割的方法模型复杂,参数过大且效果不是很明显,息肉与其周围的粘膜对比度比较低,导致识别/分割出目标非常困难。对于息肉分割任务,最新的卷积神经网络方法是反卷积层生成概率图,用反卷积代替完全连接层,并使用先前层的信息来提高分割准确率,在这一类别中全卷积网络和U-Net网络是两种主要方法,但由于息肉与其周围环境边界不明显且结构复杂,U-Net网络的分割效果不是很好。U-Net的变体,即U-Net++和ResUNet++也用于息肉分割以提高性能,随着神经网络模型的加深,神经元也越来越多,导致参数量过大,而且也存在无法清晰分割出边界信息这一问题。随后也有不少学者提出了一些息肉分割算法,比如Fan等人提出的PraNet,用并行部分解码器和反向注意力机制分割息肉,但是分割准确率不够高,增加了模型的复杂性,对模型泛化性产生了不利的影响。
发明内容
为解决上述技术问题,本发明提出不确定性增强上下文注意力网络的息肉图像分割系统,解决现有的息肉分割算法所采用的骨干网络对息肉边界分割不明显、外观尺寸大小存在差异导致难以检测及漏检率高,模型的表达能力不足,甚至最终导致模型泛化能力弱,模型深度变深,参数量变大等问题。
为实现上述目的,本发明提供了不确定性增强上下文注意力网络的息肉图像分割系统,包括:第一构建模块、第二构建模块、训练模块和输出模块;
所述第一构建模块,用于构建息肉图像的数据集;
所述第二构建模块,用于基于UACANet网络模型,构建息肉图像分割模型;
所述训练模块,用于基于所述数据集,对所述息肉图像分割模型进行训练和测试;
所述输出模块,用于基于测试后的所述息肉图像分割模型,进行息肉图像分割。
可选地,构建所述息肉图像分割模型包括:
在UACANet网络模型基础上,利用UACANet网络模型的输出结果作为注意力图,引导高层融合特征,设计了一个多尺度残差推理模块来获得融合后特征的信息,分割出息肉目标。
可选地,所述息肉图像分割模型包括:骨干网络、并行轴向注意力编码器模块、并行轴向注意力解码器模块、不确定性增强上下文注意力模块、RFB模块和多尺度残差推理模块;
基于所述骨干网络提取多尺度特征,其中,所述多尺度特征包括:低级特征f1,f2,f3和高级特征f3,f4,f5;将高层特征f3,f4,f5分别进入并行轴向注意力编码器模块得到编码后的特征信息,来自f4和f5的两个并行轴向注意力编码器模块的特征图都用于侧向融合路径、并行轴向注意力解码器和不确定性增强上下文注意力;将并行轴向注意力解码器和并行轴向注意力编码器模块的两个输出特征图连接起来,经过并行轴向注意力解码器后得到息肉的初始显著性图;然后来自并行轴向注意力编码器模块和并行轴向注意力解码器的特征图被连接用于第一个不确定性增强上下文注意力模块,来自第二个不确定性增强上下文注意力模块的输出显著性图被用于上下文引导;得到的第二个不确定性增强上下文注意力模块的输出fD经过一个上采样后分别与低级特征f1,f2,f3做卷积,然后经过RFB模块来扩大感受野输出得到r1,r2,r3;r3经过上采样后与r2进行拼接操作,再经过3×3卷积,之后与r1进行拼接操作,输出的结果再进行3×3卷积,送入多尺度残差推理模块,最终得到分割结果。
可选地,所述并行轴向注意力编码器模块包括:第一编码器单元、第二编码器单元和第三编码器单元;
所述第一编码器单元、第二编码器单元和第三编码器单元分别与所述骨干网络中的高层特征连接,骨干网络backbone使用Res2Net50,其由50个卷积层构成,分为5个阶段,即f1,f2,f3,f4,f5五个阶段,每个阶段包含一组卷积层和池化层,三个编码器单元分别与高层特征f3,f4,f5相连接;并且三个编码器单元的输出均连接所述并行轴向注意力解码器模块。
可选地,所述并行轴向注意力解码器模块中:
对所述并行轴向注意力编码器模块的输出进行拼接,获取拼接结果;
对所述拼接结果依次进行多次卷积处理,获取所述并行轴向注意力解码器模块的输出。
可选地,所述不确定性增强上下文注意力模块包括:
不确定性增强上下文注意力模块包括两个部分:不确定性增强和上下文注意力;其中不确定增强用于估计输入图像的不确定性,从而调整注意力机制的权重;上下文注意力部分则用于生成注意力图,用于指导模型在分类任务中关注哪些部分的图像;不确定性增强上下文注意力模块通过结合不确定性和上下文注意力机制来提高分割的泛化能力。
可选地,所述RFB模块包括:第一条分支、第二条分支、第三条分支和第四条分支;
所述RFB第一条分支包括:1×1卷积层;
所述RFB第二条分支包括:依次连接的1×1卷积层、1×3卷积层、3×1卷积层和第一3×3卷积层;
所述RFB第三条分支包括:依次连接的1×1卷积层、1×5卷积层、5×1卷积层和第二3×3卷积层;
所述RFB第四条分支包括:依次连接的1×1卷积层、1×7卷积层、7×1卷积层和第三3×3卷积层。
将上述四条分支连接后通过一个3×3卷积层,然后在与原输入相连接得到输出。
可选地,所述推理模块包括:依次连接的1×1卷积层、多尺度残余块、1×1卷积层、多尺度残余块和1×1卷积层。
可选地,所述多尺度残差推理模块包括:1×1卷积层、第一单元MRB、1×1卷积层、第二单元MRB和1×1卷积层;
所述第一单元MRB包括:依次连接的3×3卷积层、正则归一化层、ReLU激活函数层、3×3反卷积层、正则归一化层和ReLU激活函数层;
所述第二单元MRB包括:依次连接的5×5卷积层、正则归一化层、ReLU激活函数层、5×5反卷积层、正则归一化层和ReLU激活函数层。
可选地,构建息肉图像的数据集包括:
对息肉图像进行数据增强;
对数据增强后的所述息肉图像中的真值标签添加额外的随即膨胀和侵蚀;
对添加后的数据进行翻转处理,获取所述数据集。
与现有技术相比,本发明具有如下优点和技术效果:
本发明以UACANet为基础构建息肉分割网络模型,将高层特征融合后预测的结果经过上采样后充当注意力图来细化低级特征,然后利用RFB模块来扩大感受野,以获得更丰富的特征并减少计算。最后将融合后的特征输入到推理模块来生成最终检测结果,该模型可以通过多尺度策略利用粗预测图细化的低级特征中的信息特征,在对息肉与其周围环境低对比度和其外观大小不一引起的漏检问题上,检测效果有很大的提升。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的整体框架图;
图2为本发明实施例的并行轴向注意力(PAA)模块示意图;
图3为本发明实施例的并行轴向注意力编码器(PAA-e);
图4为本发明实施例的解码器(PAA-d)模块示意图;
图5为本发明实施例的不确定性增强的上下文注意(UACA)模块示意图;
图6为本发明实施例的感受野阻滞(RFB)模块结构示意图;
图7为本发明实施例的推理(MSFR)模块示意图;
图8为本发明实施例的推理(MSFR)模块中的残差模块(MRB)模块示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明提出了不确定性增强上下文注意力网络的息肉图像分割系统,包括:第一构建模块、第二构建模块、训练模块和输出模块;
第一构建模块,用于构建息肉图像的数据集;
第二构建模块,用于基于UACANet网络模型,构建息肉图像分割模型;
训练模块,用于基于数据集,对息肉图像分割模型进行训练和测试;
输出模块,用于基于测试后的息肉图像分割模型,进行息肉图像分割。
进一步地,构建息肉图像分割模型包括:
在UACANet网络模型基础上,利用UACANet网络模型的输出结果作为注意力图,引导高层融合特征,从而实现息肉分割。
为了解决现有的息肉分割算法所采用的骨干网络对息肉边界分割不明显、外观尺寸大小存在差异导致难以检测及漏检率高等问题,本发明在UACANet网络模型基础上,利用UACANet网络模型的输出结果作为注意力图,引导高层融合特征,设计了一个多尺度残差推理模块来获得融合后特征的信息,分割出息肉目标。
进一步地,息肉图像分割模型包括:骨干网络、并行轴向注意力编码器模块、并行轴向注意力解码器模块、不确定性增强上下文注意力模块、RFB模块和推理模块;
基于骨干网络提取多尺度特征,其中,多尺度特征包括:低级特征f1,f2,f3和高级特征f3,f4,f5;将高层特征f3,f4,f5分别进入并行轴向注意力编码器,获取特征图,并自上而下的流和侧出融合路径;来自f4和f5的两个PAA-e模块的特征图都用于侧向融合路径、并行轴向注意力解码器和不确定性增强上下文注意力;将PAA-d的PAA-e的两个特征图连接起来,并预测息肉的初始显著性图;然后来自PAA-e和PAA-d的特征图被连接用于UACA,来自UACA的输出显著性图被用于上下文引导;得到的fD经过一个上采样后分别与低级特征f1,f2,f3做卷积,然后经过RFB模块来扩大感受野输出得到r1,r2,r3;r3经过上采样后与r2进行拼接操作,再经过3×3卷积,之后与r1进行拼接操作,输出的结果再进行3×3卷积,送入到推理模块,最终得到分割结果。
进一步地,并行轴向注意力编码器模块包括:第一编码器单元、第二编码器单元和第三编码器单元;
所述第一编码器单元、第二编码器单元和第三编码器单元分别与所述骨干网络中的高层特征连接,骨干网络backbone使用Res2Net50,其由50个卷积层构成,分为5个阶段,即f1,f2,f3,f4,f5五个阶段,每个阶段包含一组卷积层和池化层,三个编码器单元分别与高层特征f3,f4,f5相连接;并且三个编码器单元的输出均连接所述并行轴向注意力解码器模块。
进一步地,并行轴向注意力解码器模块中:
对并行轴向注意力编码器模块的输出进行拼接,获取拼接结果;
对拼接结果依次进行多次卷积处理,获取并行轴向注意力解码器模块的输出。
进一步地,不确定性增强上下文注意力模块包括:
进一步地,RFB模块包括:第一RFB单元、第二RFB单元、第三RFB单元和第四RFB单元;
第一RFB单元包括:1×1卷积层;
第二RFB单元包括:依次连接的1×1卷积层、1×3卷积层、3×1卷积层和第一3×3卷积层;
第三RFB单元包括:依次连接的1×1卷积层、1×5卷积层、5×1卷积层和第二3×3卷积层;
第四RFB单元包括:依次连接的1×1卷积层、1×7卷积层、7×1卷积层和第三3×3卷积层。
进一步地,推理模块包括:依次连接的1×1卷积层、多尺度残余块、1×1卷积层、多尺度残余块和1×1卷积层。
进一步地,多尺度残余块包括:第一MRB单元和第二MRB单元;
第一MRB单元包括:依次连接的3×3卷积层、正则归一化层、ReLU激活函数层、3×3反卷积层、正则归一化层和ReLU激活函数层;
第二MRB单元包括:依次连接的5×5卷积层、正则归一化层、ReLU激活函数层、5×5反卷积层、正则归一化层和ReLU激活函数层。
进一步地,构建息肉图像的数据集包括:
对息肉图像进行数据增强;
对数据增强后的息肉图像中的真值标签添加额外的随即膨胀和侵蚀;
对添加后的数据进行翻转处理;
对翻转处理后的数据进行训练。
基于不确定性增强上下文注意力网络的息肉图像分割系统,本实施例还提出了:基于不确定性增强上下文注意力网络的息肉图像分割方法,包括:
构建息肉图像的数据集;
基于UACANet网络模型,构建息肉图像分割模型;
基于所述数据集,对所述息肉图像分割模型进行训练和测试;
基于测试后的所述息肉图像分割模型,进行息肉图像分割。
如图1所示,本实施例所提出的不确定性增强上下文注意力网络的息肉图像分割算法,它主要包括以下几个步骤:
步骤1:数据集的构建与整理;
步骤2;息肉分割网络模型的设计;
步骤3:网络模型的训练;
步骤4:网络模型的测试;
步骤5:网络模型的评估;
在步骤1中,选取五个著名的息肉分割数据集来进行验证设计出的模型,分别是Kvasir,CVC-ClinicDB,ETIS,CVC-ColonDB和CVC-300数据集。整理后的数据集如表1、表2所示:
表1五个息肉分割数据集
表2训练集和测试集的划分
在步骤2中,基于UACANet网络模型设计一个新的网络模型,UACANet网络模型主干特征是利用PAA-e编码的,并且编码特征被转发到PAA-d,用于初始显著性图,该图用作初始引导图,这样使得UACA模块学习除了初始图之外的剩余显著性图。PAA-e用于自上而下的流出和侧融合路径。但是UACANet整体框架只融合高层特征,没有用到底层特征。底层特征包含更多的纹理细节部分,本设计在UACANet模型基础上,利用其输出结果作为注意力图,引导高层融合特征,从而更好的实现精确的息肉分割。本设计为了有效地利用多尺度特征将第二个UACA模块的输出(表示为fD)来细化低水平特征(即,Ql={f1,f2,f3})。低水平特征经过修改的RFB模块扩大感受野,扩展接受字段,以获得更丰富的特征并减少计算。然后将特征级联馈送到伪装推理模块(MSFR)来生成最终的检测结果,该模块可以通过多尺度策略利用低级别特征,从而获得最终的分割结果。
在步骤3中,使用当前最为代表性的五个息肉分割数据集划分后的训练集对模型进行训练,得到模型训练权重。
在步骤4中,使用上述五个数据集分别的测试集对模型进行测试。
在步骤5中,使用meanDic,meanIoU,mae,maxDic,maxIoU五个评价指标对模型进行评估。
上述不确定性增强上下文注意力网络的息肉图像分割算法模型结构如下:
采用Res2Net-50作为骨干来提取多尺度特征,表示为fi,i=1,2,…,5。在本文模型中,提取的特征分为两组,即低级特征Ql={f1,f2,f3}和高级特征Qh={f3,f4,f5}。使用额外的编码器,并行轴向注意力编码器(PAA-e),用于自上而下的流和侧出融合路径。来自两个PAA-e模块的特征图都用于侧向融合路径、并行轴向注意力解码器(PAA-d)和不确定性增强上下文注意力(UACA)。将PAA-d的PAA-e的两个特征图连接起来,并预测息肉的初始显著性图。然后来自PAA-e和PAA-d的特征图被连接用于UACA,来自UACA的输出显著性图被用于上下文引导。得到的fD经过一个上采样后分别与低级特征f1,f2,f3做卷积,然后经过RFB模块来扩大感受野输出得到r1,r2,r3。r3经过上采样后与r2进行拼接操作,再经过3×3卷积,之后与r1进行拼接操作,输出的结果再进行3×3卷积,送入到推理模块(MSFR),最终得到分割结果。整体框架图如图1。
上述PAA-e和PAA-d模块结构:
如图2所示,PAA:Input:H×W×C
垂直轴向:
分支1:Input→1×1conv→Reshape&Transpose→WC×H;
分支2:Input→1×1conv→Reshape→H×WC;
(用Z1表示);
分支3:Input→1×1conv→Reshape→H×WC;
水平轴向:
分支4:Input→1×1conv→Reshape&Transpose→HC×W;
分支5:Input→1×1conv→Reshape→W×HC;
(用R1表示);
分支6:Input→1×1conv→Reshape→W×HC;
水平方向和垂直方向对应元素求和:
Output:H×W×C
注:表示矩阵相乘,/>表示对应元素求和。
如图3所示,PAA-e:
分支1:输入→1×1卷积;
分支2:输入→1×3卷积→3×1卷积→3×3卷积(rate=3)→轴向注意力(PAA);
分支3:输入→1×5卷积→5×1卷积→3×3卷积(rate=5)→轴向注意力(PAA);
分支4:输入→1×7卷积→7×1卷积→3×3卷积(rate=7)→轴向注意力(PAA);
将四个分支的结果进行拼接操作,然后经过3×3卷积和1×1卷积。
如图4所示,PAA-d:
将高层特征f3,f4,f5经过PAA-e模块编码后的结果分别经过4×上采样、2×上采样和f5经过PAA-e后的输出进行拼接操作得到结果fC。
fC→3×3卷积→轴向注意力(PAA)→3×3卷积→3×3卷积→3×3卷积→1×1卷积→输出:
如图5所示,上述UACA模块结构:
将计算的输入显著性图表示为m,并生成相应的前景图mf,背景图mb和不确定图mu。
mf=max(m-0.5,0),mb=max(0.5-m,0),mu=0.5-abs(m-0.5).(1)
使用最大运算来计算前景和背景图,以便不仅彼此分离,而且从不确定区域中分离。首先通过如下将像素表示与来自输入特征图x的每个区域聚合来计算前景图、背景图和不确定区域图的代表向量:
其中i∈I表示空间维度中的像素。用矩阵乘法实现方程2,如图5所示,每个向量代表最具有代表性的特征向量,因此vf表示前景特征向量,vb表示不确定区域。然后计算每个向量(vf,vb,和vu)以及来自输入特征图xi的每个像素,如下:
其中,
按相似性评分,通过三个具有代表性的向量vf,vb,vu的加权和来计算上下文特征图,如下:
注意φ(·),ω(·)和δ(·)是逐点卷积。上下文特征图中的每个像素,ti,可以理解为三个向量vf,vb,vu的加权平均值。上下文特征图t和输入特征图x相对于通道轴连接起来,并前馈到最终输出特征图的逐点卷积,如图5所示:
如图6所示,上述感受野阻滞(RFB)模块结构:
分支1:输入→1×1卷积;
分支2:输入→1×1卷积→1×3卷积→3×1卷积→3×3卷积(dilation=3);
分支3:输入→1×1卷积→1×5卷积→5×1卷积→3×3卷积(dilation=5);
分支4:输入→1×1卷积→1×7卷积→7×1卷积→3×3卷积(dilation=7);
上述四个分支的输出拼接,然后做3×3卷积,与输入x的1×1卷积结果拼接后再送入激活函数得到输出结果。
如图7所示,上述MSFR模块结构:
输入→1×1卷积→多尺度残余块(MRB)→1×1卷积→多尺度残余块(MRB)→1×1卷积;
在MSFR中,为了充分利用多尺度信息,加入多尺度残差块(MRB)来检测局部和多尺度特征。具体来说就是构建一个双流网络,每个流使用不同卷积核。如图8所示。
多尺度残差块(MRB):
分支1:输入特征X→3×3卷积→正则归一化→ReLU激活函数→3×3反卷积→正则归一化→ReLU激活函数;
分支2:输入特征X→5×5卷积→正则归一化→ReLU激活函数→5×5反卷积→正则归一化→ReLU激活函数;
将上述两个分支的输出进行拼接操作,然后与输入特征X级联后馈送到3×3卷积中去,以获得融合的多尺度特征表示。
在步骤2中,进行息肉分割模型训练时,包含以下子步骤:
步骤2-1)数据增强,使用流行的数据扩充技术,包括在水平方轴和垂直轴上的随机反转,从0.75到1.25的随机图片缩放。
步骤2-2)为真值标签添加额外的随即膨胀和侵蚀,以增强模型泛化能力
步骤2-3)还对图片进行0-359度的随即翻转,因为在结肠镜检测时得到的图片可能存在旋转。
步骤2-4)对数据进行训练,使用Tesla T4 GPU来训练模型,单次训练样本数设置为8,即batchsize=8,输入图片大小为352×352,模型输入通道数256。
本实施例具有以下优势:
本实施例以UACANet为基础构建息肉分割网络模型,将高层特征融合后预测的结果经过上采样后充当注意力图来细化低级特征Ql,然后利用RFB模块来扩大感受野,以获得更丰富的特征并减少计算。最后将融合后的特征输入到推理模块来生成最终检测结果,该模块可以通过多尺度策略利用粗预测图细化的低级特征中的信息特征,在对息肉与其周围环境低对比度和其外观大小不一引起的漏检问题上,检测效果有很大的提升。
为了证明本实施例构建的模型拥有良好的分割效果,本实施例与最U-Net、UNet++、ResUNet、SFA、PraNet和UACANet等几个息肉分割网络模型进行比较,来检验本实施例模型算法的分割效果;本实施例模型算法在Kvasir和CVC-ClinicDB两个数据集的训练集上进行训练。在Kvasir和CVC-ClinicDB的测试集上进行测试评估,表3展示了本发明的评估结果,与最现今的方法相比较mDice提高了1.0%,mIoU提高了1.5%。用另外三个与训练集无关的数据集对模型进行测试评估,表4中在最具有挑战性的数据集ETIS上与UACANet相比mDice提高了4.9%,mIoU提高了5.4%。在非训练集的未知数据集上的分割效果表明,本发明的模型具有很好的泛化能力,并且具有较好的分割微小息肉的能力。
表3与之前最先进的方法和本方法在Kvasir和CVC-ClinicDB数据集上的评估结果
注:↑表示越高越好,↓表示越低越好。
表4在ETIS、CVC-ColonDB和CVC-300数据集上的最先进方法和本发明方法相比较
注:↑表示越高越好,↓表示越低越好。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,包括:第一构建模块、第二构建模块、训练模块和输出模块;
所述第一构建模块,用于构建息肉图像的数据集;
所述第二构建模块,用于基于UACANet网络模型,构建息肉图像分割模型;
所述训练模块,用于基于所述数据集,对所述息肉图像分割模型进行训练和测试;
所述输出模块,用于基于测试后的所述息肉图像分割模型,进行息肉图像分割。
2.根据权利要求1的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,构建所述息肉图像分割模型包括:
在UACANet网络模型基础上,利用UACANet网络模型的输出结果作为注意力图,引导高层融合特征,设计了一个多尺度残差推理模块来获得融合后特征的信息,分割出息肉目标。
3.根据权利要求1的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,所述息肉图像分割模型包括:骨干网络、并行轴向注意力编码器模块、并行轴向注意力解码器模块、不确定性增强上下文注意力模块、RFB模块和多尺度残差推理模块;
基于所述骨干网络提取多尺度特征,其中,所述多尺度特征包括:低级特征f1,f2,f3和高级特征f3,f4,f5;将高层特征f3,f4,f5分别进入并行轴向注意力编码器模块得到编码后的特征信息,来自f4和f5的两个并行轴向注意力编码器模块的特征图都用于侧向融合路径、并行轴向注意力解码器和不确定性增强上下文注意力;将并行轴向注意力解码器和并行轴向注意力编码器模块的两个输出特征图连接起来,经过并行轴向注意力解码器后得到息肉的初始显著性图;然后来自并行轴向注意力编码器模块和并行轴向注意力解码器的特征图被连接用于第一个不确定性增强上下文注意力模块,来自第二个不确定性增强上下文注意力模块的输出显著性图被用于上下文引导;得到的第二个不确定性增强上下文注意力模块的输出fD经过一个上采样后分别与低级特征f1,f2,f3做卷积,然后经过RFB模块来扩大感受野输出得到r1,r2,r3;r3经过上采样后与r2进行拼接操作,再经过3×3卷积,之后与r1进行拼接操作,输出的结果再进行3×3卷积,送入多尺度残差推理模块,最终得到分割结果。
4.根据权利要求3的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,所述并行轴向注意力编码器模块包括:第一编码器单元、第二编码器单元和第三编码器单元;
所述第一编码器单元、第二编码器单元和第三编码器单元分别与所述骨干网络中的高层特征连接,骨干网络backbone使用Res2Net50,其由50个卷积层构成,分为5个阶段,即f1,f2,f3,f4,f5五个阶段,每个阶段包含一组卷积层和池化层,三个编码器单元分别与高层特征f3,f4,f5相连接;并且三个编码器单元的输出均连接所述并行轴向注意力解码器模块。
5.根据权利要求3的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,所述并行轴向注意力解码器模块中:
对所述并行轴向注意力编码器模块的输出进行拼接,获取拼接结果;
对所述拼接结果依次进行多次卷积处理,获取所述并行轴向注意力解码器模块的输出。
6.根据权利要求3的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,所述不确定性增强上下文注意力模块包括:
不确定性增强上下文注意力模块包括两个部分:不确定性增强和上下文注意力;其中不确定增强用于估计输入图像的不确定性,从而调整注意力机制的权重;上下文注意力部分则用于生成注意力图,用于指导模型在分类任务中关注哪些部分的图像;不确定性增强上下文注意力模块通过结合不确定性和上下文注意力机制来提高分割的泛化能力。
7.根据权利要求3的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,所述RFB模块包括:第一条分支、第二条分支、第三条分支和第四条分支;
所述RFB第一条分支包括:1×1卷积层;
所述RFB第二条分支包括:依次连接的1×1卷积层、1×3卷积层、3×1卷积层和第一3×3卷积层;
所述RFB第三条分支包括:依次连接的1×1卷积层、1×5卷积层、5×1卷积层和第二3×3卷积层;
所述RFB第四条分支包括:依次连接的1×1卷积层、1×7卷积层、7×1卷积层和第三3×3卷积层;
将上述四条分支连接后通过一个3×3卷积层,然后在与原输入相连接得到输出。
8.根据权利要求3的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,所述推理模块包括:依次连接的1×1卷积层、多尺度残余块、1×1卷积层、多尺度残余块和1×1卷积层。
9.根据权利要求8的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,所述多尺度残差推理模块包括:1×1卷积层、第一单元MRB、1×1卷积层、第二单元MRB和1×1卷积层;
所述第一单元MRB包括:依次连接的3×3卷积层、正则归一化层、ReLU激活函数层、3×3反卷积层、正则归一化层和ReLU激活函数层;
所述第二单元MRB包括:依次连接的5×5卷积层、正则归一化层、ReLU激活函数层、5×5反卷积层、正则归一化层和ReLU激活函数层。
10.根据权利要求1的不确定性增强上下文注意力网络的息肉图像分割系统,其特征在于,构建息肉图像的数据集包括:
对息肉图像进行数据增强;
对数据增强后的所述息肉图像中的真值标签添加额外的随即膨胀和侵蚀;
对添加后的数据进行翻转处理,获取所述数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310398213.3A CN116563536A (zh) | 2023-04-14 | 2023-04-14 | 不确定性增强上下文注意力网络的息肉图像分割系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310398213.3A CN116563536A (zh) | 2023-04-14 | 2023-04-14 | 不确定性增强上下文注意力网络的息肉图像分割系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563536A true CN116563536A (zh) | 2023-08-08 |
Family
ID=87492380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310398213.3A Pending CN116563536A (zh) | 2023-04-14 | 2023-04-14 | 不确定性增强上下文注意力网络的息肉图像分割系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563536A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117830226A (zh) * | 2023-12-05 | 2024-04-05 | 广州恒沙云科技有限公司 | 一种基于边界约束的息肉分割方法及系统 |
-
2023
- 2023-04-14 CN CN202310398213.3A patent/CN116563536A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117830226A (zh) * | 2023-12-05 | 2024-04-05 | 广州恒沙云科技有限公司 | 一种基于边界约束的息肉分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dai et al. | Ms RED: A novel multi-scale residual encoding and decoding network for skin lesion segmentation | |
JP2021513435A (ja) | 胃腸腫瘍を診断するシステム及び方法 | |
CN114820635A (zh) | 联合注意力u形网络和多尺度特征融合的息肉分割方法 | |
Sang et al. | Ag-curesnest: A novel method for colon polyp segmentation | |
CN113837989B (zh) | 一种基于无锚框的大肠内窥镜息肉检测与病理分类方法 | |
Lin et al. | Bsca-net: Bit slicing context attention network for polyp segmentation | |
CN113781489B (zh) | 一种息肉影像语义分割方法及装置 | |
CN114266786A (zh) | 基于生成对抗网络的胃病变分割方法及系统 | |
Haj‐Manouchehri et al. | Polyp detection using CNNs in colonoscopy video | |
CN114332462A (zh) | 一种针对大脑病变融入注意力机制的mri分割方法 | |
CN114511508A (zh) | 融合卷积与多层感知机神经网络的结直肠息肉分割方法 | |
CN112580661A (zh) | 一种深度监督下的多尺度边缘检测方法 | |
CN116563536A (zh) | 不确定性增强上下文注意力网络的息肉图像分割系统 | |
CN113838047A (zh) | 基于内窥镜图像的大肠息肉分割方法、系统及相关组件 | |
CN116503431A (zh) | 基于边界引导注意力的编解码器医学图像分割系统及方法 | |
CN114998615A (zh) | 一种基于深度学习的协同显著性检测方法 | |
Yue et al. | Boundary uncertainty aware network for automated polyp segmentation | |
Zhang et al. | TranSEFusionNet: Deep fusion network for colorectal polyp segmentation | |
Shen et al. | Automatic polyp image segmentation and cancer prediction based on deep learning | |
Sushma et al. | CNN based U-net with modified skip connections for colon polyp segmentation | |
CN116958535B (zh) | 一种基于多尺度残差推理的息肉分割系统及方法 | |
Li et al. | Learning salient feature for salient object detection without labels | |
Iqbal et al. | LDMRes-Net: Enabling real-time disease monitoring through efficient image segmentation | |
CN114842029B (zh) | 一种融合通道和空间注意力的卷积神经网络息肉分割方法 | |
CN116597138A (zh) | 一种基于深度卷积神经网络的息肉图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |