CN115018824B - 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 - Google Patents
一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 Download PDFInfo
- Publication number
- CN115018824B CN115018824B CN202210858918.4A CN202210858918A CN115018824B CN 115018824 B CN115018824 B CN 115018824B CN 202210858918 A CN202210858918 A CN 202210858918A CN 115018824 B CN115018824 B CN 115018824B
- Authority
- CN
- China
- Prior art keywords
- cnn
- fusion
- transformer
- branch
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 71
- 208000037062 Polyps Diseases 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000003709 image segmentation Methods 0.000 title claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000012805 post-processing Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000000750 progressive effect Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000002052 colonoscopy Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 2
- 210000001072 colon Anatomy 0.000 abstract 1
- 206010009944 Colon cancer Diseases 0.000 description 6
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 5
- 238000005381 potential energy Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0409—Adaptive resonance theory [ART] networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30028—Colon; Small intestine
- G06T2207/30032—Colon polyp
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于CNN和Transformer融合的结肠镜息肉图像分割方法,其步骤为:S1,将结肠镜息肉图像数据集划分为训练、验证和测试样本集;S2,对样本集进行数据预处理操作;S3,使用预处理后训练和验证样本集对神经网络模型进行训练、验证,并保存训练好的神经网络模型;S4,将预处理后测试样本集输入训练好的神经网络模型中,得到结肠镜息肉图像粗分割结果;S5,对结肠镜息肉图像粗分割结果进行图像后处理操作,得到最终分割结果。本发明创新性设计了一种CNN和Transformer神经网络融合模型,其弥补了CNN和Transformer分支特征融合过程中因学习范式差异而产生的潜在问题,进而充分利用两者特征互补性,有效地解决了息肉难以定位、细节难以捕获以及伪装性区域难以辨别问题。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于CNN和Transformer融合的结肠镜息肉图像分割方法。
背景技术
结直肠癌(Colorectal Cancer,CRC)已经逐渐成为对人类健康的严重威胁,据公开文献记载,结直肠癌目前是世界上第三大常见癌症,也是癌症死亡率第四高的病种,且仍呈现逐步上升的趋势。而CRC患者存活率很大程度上取决于检测到病症的阶段,早期的检测和治理可以有效控制病情,大幅提升CRC患者存活率。
现有结直肠癌诊断方法中,结肠镜(Colonoscopy)检查是早期筛查最有效的方法,其可以直观的观察到肿瘤的大小、形状等特征,从而辅助医生及时识别和切除息肉病灶区域,防止其进一步扩散。然而,临床诊断中,息肉区域漏检率高达6%,其中有两方面关键因素影响了诊断结果:1)客观因素。息肉的大小与病变情况多样,导致医生难以检测具有强大伪装性的息肉区域;2)主观因素。息肉检测结果会因医生经验差别以及医生个人状态差别而造成偏差。因此,医生人工检测的方法尚不能充分挖掘患者结肠镜图像信息。
目前,现有结肠镜息肉图像分割方法主要分为传统方法和深度学习方法两大类。传统方法主要依赖于手工提取的特征,但由于制作的特征表达能力相当有限,易受到息肉区域形状等因素的影响,导致对噪声点和对比度非常敏感,因此并不能很好的胜任息肉分割这项工作。近年来,深度学习方法因其高效的特征提取能力和良好的特征表达能力,在息肉分割研究方向上受到了广泛的应用,主要包含CNN和Transformer两大类模型方法。其中CNN模型方法擅长于捕获局部特征中的细节信息,而在建模长距离依赖关系能力上有所不足;与此相反,Transformer模型方法擅长于建模长距离依赖关系,而在捕获细节信息方面能力有所不足。尽管目前已有研究开始尝试将两者结合,但是这种早期的尝试并未充分考虑到由于CNN和Transformer模型间学习范式差异而产生的语义鸿沟问题,因此如何充分利用CNN和Transformer模型各自优势,赋予深度学习模型更强大的特征表达能力,仍是摆在我们面前的难题。
发明内容
为了解决现有技术存在的上述技术问题,本发明提供了一种基于CNN和Transformer融合的结肠镜息肉图像分割方法,其有效缓解了CNN和Transformer模型因学习范式差异而产生的语义鸿沟问题,进而全面充分利用了CNN和Transformer模型各自优势,使学习的特征表示强大且具有泛化性,提高了结肠镜息肉图像分割的准确性。
本发明解决上述技术问题的技术方案是:一种基于CNN和Transformer融合的结肠镜息肉图像分割方法,包括以下步骤:
S1:将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集;
S2:对步骤S1划分好的样本集,采用包括多尺度训练策略调整尺寸大小、标准化在内的数据预处理操作;
S3:使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证,并保存训练完成后的神经网络模型;
S4:将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中,得到结肠镜息肉图像粗分割结果;
S5:对步骤S4获取到的结肠镜息肉图像粗分割结果,采用包括全连接条件随机场、孔洞填充算法在内的图像后处理操作,进一步细化并得到结肠镜息肉图像分割最终结果。
优选地,所述步骤S1具体为:将获取到的结肠镜息肉图像数据集按0.8:0.1:0.1比例随机划分为训练样本集、验证样本集和测试样本集。
优选地,所述步骤S2具体为:对步骤S1划分好的样本集统一调整到352×352尺寸大小,在此基础上进一步采用多尺度训练策略按{0.75,1,1.25}缩放系数将统一尺寸后的样本集图像随机调整为264×264、352×352和440×440尺寸大小;
接着,对尺寸调整后的每个样本进行均值方差标准化操作,即按通道减去均值,再除以方差。
优选地,所述步骤S3具体为:使用步骤S2获取到的预处理后训练样本集和验证样本集对CNN和Transformer神经网络融合模型进行训练、验证,当迭代次数达到设定值时停止训练过程,并保存验证样本集上分割性能最佳时的CNN和Transformer神经网络融合模型。
优选地,步骤S3中所述CNN和Transformer神经网络融合模型为一个编码-解码架构,具体为:
在CNN和Transformer神经网络融合模型编码部分,将步骤S2获取到的预处理后样本集分别输入到预先训练好的CNN模型和Transformer模型中,以从局部和全局两个视角对结肠镜下息肉图像进行特征提取。
接着,将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块,获得多尺度下注意力加权的融合特征。这一融合过程具体如下:
S3-1,利用公式捕获来自不同尺度的信息,并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符。其中,ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;frfb(·)表示RFB策略,用于进行多尺度特征学习;表示矩阵乘法;Concat(·)表示特征拼接。
S3-2,利用公式和将步骤S3-1获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征,此时CNN分支编码特征和Transformer分支编码特征通过多尺度上下文信息加权,缓解了因两者学习范式差异而产生的巨大语义鸿沟,生成了兼具两者特性加权下的融合特征。其中,fi表示多尺度特征信息描述符;ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;表示矩阵乘法;f1×1(·)表示1×1卷积操作。
在CNN和Transformer神经网络融合模型解码部分,将步骤S3-3获取到的不同层次双分支融合特征输入到渐进式注意力解码模块,获得逐层高级语义信息指导后的解码特征。这一解码过程具体如下:
S3-4,利用公式将高层语义信息逐层加权于低层特征信息中,生成全局引导和细节优化后的解码特征。其中,表示第i层双分支融合特征,为低层特征;表示第j层双分支融合特征,为高层特征;DA(·)表示双重注意力机制。
S3-5,对步骤S3-4获得的解码特征hi使用1×1卷积和Sigmoid激活层,计算得到结肠镜图像中每个像素属于息肉区域的分类概率。
优选地,所述步骤S4具体为:使用步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的CNN和Transformer神经网络融合模型中,得到每张结肠镜息肉图像区域的像素级概率预测,即结肠镜息肉图像粗分割结果。
优选地,所述步骤S5具体为:将步骤S4获取到的结肠镜息肉图像粗分割结果采用全连接条件随机场来修正细碎的错分区域,以及采用基于漫水填充法的孔洞填充法来填补小孔洞噪声,进而获取细化后的结肠镜息肉图像分割最终结果。
本发明的有益效果是:本发明基于多尺度策略和注意力机制创造性构造的双分支融合模块,有效缓解了CNN和Transformer分支的语义鸿沟,进而充分利用了CNN分支捕获细节信息以及Transformer分支建模长距离依赖关系能力,更好地解决了不同尺寸大小息肉难以定位以及细节难以捕获问题。其次,本发明通过渐进式注意力解码模块,将高层双分支融合特征语义信息逐层加权于低层双分支融合特征,从而达到增强局部细节,抑制不相关区域的目标,更好地解决了伪装性息肉区域难以辨别问题。本发明通过一种简单高效的图像后处理方法,更好地修正了细碎的错分区域和减轻了斑点噪声的影响,优化了最终的分割结果。
附图说明
图1为本发明的流程图;
图2为本发明中CNN和Transformer神经网络融合模型结构示意图;
图3为本发明中CNN和Transformer神经网络融合模型编码部分的双分支融合模块示意图;
图4为本发明中CNN和Transformer神经网络融合模型解码部分的渐进式注意力解码模块示意图。
具体实施方式
下面将结合附图和具体实施例对本发明的实施方案作进一步详细描述。
参见图1,图1为本发明的流程图,本发明中一种基于CNN和Transformer融合的结肠镜息肉图像分割方法整体流程包括:
S1:将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集。具体为:
S1-1:本实施例选用五个公开且具有挑战性的结肠镜息肉图像数据集(CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB、ETIS-LaribPolypDB)作为实验数据集。
S1-2:将获取到的五个结肠镜息肉图像数据集均按0.8:0.1:0.1比例随机划分为训练样本集、验证样本集、测试样本集,再将划分后的训练样本集、验证样本集、测试样本集各自合并,最终得到来自不同采样环境下形式多样的息肉图像样本集。
S2:对步骤S1划分好的样本集进行数据预处理操作。具体为:
S2-1:将步骤S1划分好的样本集中原始分辨率息肉图像统一调整到352×352尺寸大小,在此基础上进一步采用多尺度训练策略按{0.75,1,1.25}缩放系数将统一尺寸后的息肉图像随机调整为264×264、352×352和440×440尺寸大小。
S2-2:对步骤S2-1尺寸调整后的每个样本,采用ImageNet数据集抽样计算的均值[0.485,0.456,0.406]和方差[0.229,0.224,0.225],进行均值方差标准化操作,即按通道减去均值,再除以方差。
S3:使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证,并保存训练完成后的神经网络模型。具体为:
S3-1:将步骤S2获取到的预处理后训练样本集输入到CNN和Transformer神经网络融合模型进行训练,当迭代次数达到设定值(150个迭代)时停止训练过程。
进一步地,参见图2,本发明中CNN和Transformer神经网络融合模型整体为一个编码-解码架构,具体为:
在CNN和Transformer神经网络融合模型编码部分,将步骤S2获取到的预处理后训练样本集输入到预训练好的CNN模型ResNet34中,用于捕获结肠镜下息肉图像局部细节信息;以及将步骤S2获取到的预处理后训练样本集输入到预训练好的Transformer模型Pyramid Vision Transformer v2-B2中,用于建模结肠镜下息肉图像远距离依赖关系。
接着,将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块,利用多尺度策略和注意力机制来弥补两分支间的语义鸿沟问题,生成兼具CNN和Transformer双分支各自优势的融合编码特征。
进一步地,参见图3,本发明中CNN和Transformer神经网络融合模型编码部分中双分支融合模块,具体为:
利用公式捕获来自不同尺度的信息,并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符。其中,ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;frfb(·)表示RFB策略,用于进行多尺度特征学习;表示矩阵乘法;Concat(·)表示特征拼接。
利用公式和将获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征,此时CNN和Transformer分支编码特征通过多尺度上下文信息加权,缓解了因两者学习范式差异而产生的巨大语义鸿沟,生成了兼具两者特性加权下的融合特征。其中,fi表示多尺度特征信息描述符;ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;表示矩阵乘法;f1×1(·)表示1×1卷积操作。
在CNN和Transformer神经网络融合模型解码部分,将融合模型编码部分获取到的不同层次双分支融合特征输入到渐进式注意力解码模块,获得逐层高级语义信息指导后的解码特征。
进一步地,参见图4(a),本发明中CNN和Transformer神经网络融合模型解码部分中渐进式注意力解码模块,具体为:
利用公式将高层特征语义信息逐层加权于低层特征信息中,生成全局引导和细节优化后的解码特征。其中,表示第i层双分支融合特征,为低层特征;表示第j层双分支融合特征,为高层特征;DA(·)表示双重注意力机制。
进一步地,参见图4(b),本发明中CNN和Transformer神经网络融合模型解码部分的渐进式注意力解码模块中双重注意力机制,具体为:
在空间注意力机制上:
在通道注意力机制上:
首先,采用全局池化操作对第i层双分支融合特征进行压缩操作,使二维的特征通道变成一个实数,该实数具有全局感受野。接着,引入两个全连接层来建模通道间的相关性,并输出一个与输入特征相同数目的权重。其中,在两个全连接层中间引入ReLU函数进行激活,使学习到的特征具有更多的非线性,从而更好地拟合通道间的复杂相关性。最后,通过Sigmoid激活函数获得[0,1]之间的权重
利用公式对经过空间、通道注意力加权后的特征采用非线性映射操作,进行信息的整合,增加更多的非线性因素与提高最终的泛化能力,进而得到双重注意力机制最终输出特征Oi。其中,ReLU(·)为线性整流激活函数;GN(·)表示组标准化操作;f1×1(·)表示1×1卷积操作。
进一步地,对渐进式注意力解码模块获得的解码特征hi使用1×1卷积和Sigmoid激活层,计算得到结肠镜图像中每个像素属于息肉区域的分类概率。
进一步地,对计算得到的概率值利用加权交叉熵和加权IoU混合损失函数得到神经网络模型整体损失值,并通过自适应梯度法(AdamW优化器)来优化模型参数,使损失不断的趋近最小值来训练神经网络模型。
S3-2:将步骤S2获取到的预处理后验证样本集输入到步骤S3-1已训练完成的CNN和Transformer神经网络融合模型中,使用分割常用指标Dice相似系数计算得到验证样本集分割性能,并保存验证样本集上分割性能最佳时的CNN和Transformer神经网络融合模型参数相关信息。
S4:将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中,得到结肠镜息肉图像粗分割结果。具体为:
S4-1:将步骤S2获取到的预处理后测试样本集,逐张输入到步骤S3中已训练完成的神经网络模型中,得到结肠镜息肉图像粗分割结果并将其以PNG格式保存用作后续图像后处理操作输入。
S5:对步骤S4获取到的结肠镜息肉图像粗分割结果,采用图像后处理操作进一步细化并得到最终分割结果。具体为:
S5-1:对步骤S4中神经网络模型得到的结肠镜息肉图像粗分割结果,采用全连接条件随机场来修正细碎的错分区域。具体为:
将步骤S4中神经网络模型粗分割结果的概率分布图作为全连接条件随机场的一元势能,原始结肠镜图像则提供二元势能中的位置和颜色信息。其中,全连接条件随机场的能量函数公式如下:
式中,能量函数第一项ψU(xi)为一元势能函数,用于衡量当像素点i的观测值为yi时,该像素点属于类别标签xi的概率;能量函数第二项ψP(xi,xj)为二元势能函数,用于描述像素之间的关系,并将颜色和相对距离较近的像素归为一类,其计算公式如下:
式中,pi和pj代表像素i与像素j的特征向量。
通过上述过程对结肠镜息肉图像粗分割结果细化时,如果相似区域的像素点被判别为不同类时,能量函数值会变得较大;如果存在差异的区域判别为同一类时,也会产生较大的能量函数值。通过多次迭代,使能量函数值最小化来获得细化后的息肉分割结果。
S5-2:将经过步骤S5-1全连接条件随机场细化后的息肉分割结果图,进一步采用基于漫水填充法的孔洞填充算法来填补因斑点噪声产生的孔洞。具体为:
将经过步骤S5-1全连接条件随机场细化后的息肉分割结果图,用作基于漫水填充法的孔洞填充算法输入I。
首先,创建像素初始值与输入图像I相同的图像I',并确定图像I'的感兴趣区域。
然后,初始化图像I'的种子点Sp,并对种子点的4邻域像素点进行遍历,如果种子点像素值减去邻域像素点像素值小于设定阈值T,则将该邻域像素点添加进感兴趣区域,并将其设置为新的种子点Sp。
最后,对原始输入图像I与取反后种子填充后图像I'作按位或运算,得到孔洞填充算法细化后的最终分割结果Fpre。
以上所述仅用作说明本发明的设计思路和实施方案,而非对其限制,本领域的技术人员应当理解,对本发明的技术方案进行修改或等同替换的其他方案仍包含在本申请的权利要求所限定范围之内。
Claims (3)
1.一种基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,包括以下步骤:
S1:将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集;
S2:对步骤S1划分好的样本集,采用包括多尺度训练策略调整尺寸大小、标准化在内的数据预处理操作;
S3:使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证,并保存训练完成后的神经网络模型;所述的神经网络模型为CNN和Transformer神经网络融合模型,具体为:
在CNN和Transformer神经网络融合模型编码部分,将获取到的预处理后样本集分别输入到预先训练好的CNN模型和Transformer模型中,以从局部和全局两个视角对结肠镜下息肉图像进行特征提取,并将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块,利用多尺度策略和注意力机制来弥补两分支间的语义鸿沟问题,生成兼具CNN和Transformer双分支各自优势的融合编码特征;
在CNN和Transformer神经网络融合模型解码部分,将编码部分中获取到的不同层次双分支融合特征输入到渐进式注意力解码模块,获得逐层高级语义信息指导后的解码特征,并对解码特征使用1×1卷积和Sigmoid激活层,计算得到结肠镜图像中每个像素属于息肉区域的分类概率;
所述CNN和Transformer神经网络融合模型编码部分中双分支融合模块具体为:利用公式捕获来自不同尺度的信息,并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符;其中,ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;frfb(·)表示RFB策略,用于进行多尺度特征学习;表示矩阵乘法;Concat(·)表示特征拼接;
利用公式和将获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征,此时CNN和Transformer分支编码特征通过多尺度上下文信息加权,缓解了因两者学习范式差异而产生的巨大语义鸿沟,生成了兼具两者特性加权下的融合特征;其中,fi表示多尺度特征信息描述符;ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;表示矩阵乘法;f1×1(·)表示1×1卷积操作;
所述CNN和Transformer神经网络模型解码部分中渐进式注意力解码模块,具体为:
S4:将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中,得到结肠镜息肉图像粗分割结果;
S5:对步骤S4获取到的结肠镜息肉图像粗分割结果,采用包括全连接条件随机场、孔洞填充算法在内的图像后处理操作,进一步细化并得到结肠镜息肉图像分割最终结果。
2.根据权利要求1所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,所述步骤S2中对步骤S1划分好的样本集调整为352×352,进一步采用多尺度训练策略按{0.75,1,1.25}缩放系数将样本集图像随机调整为264×264、352×352和440×440大小;对调整后的每个样本进行均值方差标准化操作。
3.根据权利要求1所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,所述CNN和Transformer神经网络模型解码部分的渐进式注意力解码模块中双重注意力机制具体为:
在通道注意力机制上:采用全局池化操作对第i层双分支融合特征进行压缩操作,使二维的特征通道变成一个实数,该实数具有全局感受野;引入两个全连接层来建模通道间的相关性,并输出一个与输入特征相同数目的权重;在两个全连接层中间引入ReLU函数进行激活,这样学习到的特征具有更多的非线性,从而更好地拟合通道间的复杂相关性;通过Sigmoid激活函数获得[0,1]之间的权重
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210858918.4A CN115018824B (zh) | 2022-07-21 | 2022-07-21 | 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210858918.4A CN115018824B (zh) | 2022-07-21 | 2022-07-21 | 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115018824A CN115018824A (zh) | 2022-09-06 |
CN115018824B true CN115018824B (zh) | 2023-04-18 |
Family
ID=83082292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210858918.4A Active CN115018824B (zh) | 2022-07-21 | 2022-07-21 | 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115018824B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115439470B (zh) * | 2022-10-14 | 2023-05-26 | 深圳职业技术学院 | 息肉图像分割方法、计算机可读存储介质及计算机设备 |
CN115375712B (zh) * | 2022-10-25 | 2023-03-17 | 西南科技大学 | 一种基于双边学习分支实现实用的肺部病变分割方法 |
CN115661820B (zh) * | 2022-11-15 | 2023-08-04 | 广东工业大学 | 一种基于密集特征反向融合的图像语义分割方法及系统 |
CN115797931B (zh) * | 2023-02-13 | 2023-05-30 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法及设备 |
CN116188435B (zh) * | 2023-03-02 | 2023-11-07 | 南通大学 | 一种基于模糊逻辑的医学图像深度分割方法 |
CN116503420B (zh) * | 2023-04-26 | 2024-05-14 | 佛山科学技术学院 | 一种基于联邦学习的图像分割方法及相关设备 |
CN116563707B (zh) * | 2023-05-08 | 2024-02-27 | 中国农业科学院农业信息研究所 | 一种基于图文多模态特征融合的枸杞虫害识别方法 |
CN116935051B (zh) * | 2023-07-20 | 2024-06-14 | 深圳大学 | 一种息肉分割网络方法、系统、电子设备及存储介质 |
CN117115178B (zh) * | 2023-08-23 | 2024-05-14 | 国网四川省电力公司电力科学研究院 | 一种基于半参数共享的电力红外巡检图像分割、检测方法 |
CN118196416B (zh) * | 2024-03-26 | 2024-08-30 | 昆明理工大学 | 一种融合多任务协同与渐进式解析策略的小目标结直肠息肉分割方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706545A (zh) * | 2021-08-23 | 2021-11-26 | 浙江工业大学 | 一种基于双分支神经判别降维的半监督图像分割方法 |
CN113989301A (zh) * | 2021-10-29 | 2022-01-28 | 浙江工业大学 | 一种融合多种注意力机制神经网络的结直肠息肉分割方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264484B (zh) * | 2019-06-27 | 2022-10-18 | 上海海洋大学 | 一种面向遥感数据的改进海岛岸线分割系统及分割方法 |
CN114092439A (zh) * | 2021-11-18 | 2022-02-25 | 深圳大学 | 一种多器官实例分割方法及系统 |
-
2022
- 2022-07-21 CN CN202210858918.4A patent/CN115018824B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706545A (zh) * | 2021-08-23 | 2021-11-26 | 浙江工业大学 | 一种基于双分支神经判别降维的半监督图像分割方法 |
CN113989301A (zh) * | 2021-10-29 | 2022-01-28 | 浙江工业大学 | 一种融合多种注意力机制神经网络的结直肠息肉分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115018824A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115018824B (zh) | 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 | |
Xia et al. | A multi-scale segmentation-to-classification network for tiny microaneurysm detection in fundus images | |
Wen et al. | Gcsba-net: Gabor-based and cascade squeeze bi-attention network for gland segmentation | |
Sejuti et al. | A hybrid CNN–KNN approach for identification of COVID-19 with 5-fold cross validation | |
CN112465905A (zh) | 基于深度学习的磁共振成像数据的特征脑区定位方法 | |
Arif et al. | [Retracted] Automated Detection of Nonmelanoma Skin Cancer Based on Deep Convolutional Neural Network | |
CN112233017B (zh) | 一种基于生成对抗网络的病态人脸数据增强方法 | |
He et al. | Deep learning powers cancer diagnosis in digital pathology | |
Zhang et al. | TUnet-LBF: Retinal fundus image fine segmentation model based on transformer Unet network and LBF | |
Kanchanamala et al. | Optimization-enabled hybrid deep learning for brain tumor detection and classification from MRI | |
CN116563285B (zh) | 一种基于全神经网络的病灶特征识别与分割方法及系统 | |
CN115965630A (zh) | 一种基于内窥镜图像的深度融合的肠息肉分割方法及装置 | |
Song et al. | OAU-net: Outlined Attention U-net for biomedical image segmentation | |
CN112488996A (zh) | 非齐次三维食管癌能谱ct弱监督自动标注方法与系统 | |
CN115511882A (zh) | 一种基于病变权重特征图的黑色素瘤识别方法 | |
Huang et al. | DBFU-Net: Double branch fusion U-Net with hard example weighting train strategy to segment retinal vessel | |
CN117522891A (zh) | 一种3d医学图像分割系统及方法 | |
Ovi et al. | Infection segmentation from covid-19 chest ct scans with dilated cbam u-net | |
Jain et al. | Retina disease prediction using modified convolutional neural network based on Inception‐ResNet model with support vector machine classifier | |
Jin et al. | Foveation for segmentation of mega-pixel histology images | |
Wang et al. | Effect of data augmentation of renal lesion image by nine-layer convolutional neural network in kidney CT | |
Wu et al. | Mscan: Multi-scale channel attention for fundus retinal vessel segmentation | |
Niranjana et al. | Enhanced Skin Diseases Prediction using DenseNet-121: Leveraging Dataset Diversity for High Accuracy Classification | |
Zhang et al. | Anomaly detection via gating highway connection for retinal fundus images | |
Yu et al. | Towards better dermoscopic image feature representation learning for melanoma classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |