CN115018824A - 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 - Google Patents

一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 Download PDF

Info

Publication number
CN115018824A
CN115018824A CN202210858918.4A CN202210858918A CN115018824A CN 115018824 A CN115018824 A CN 115018824A CN 202210858918 A CN202210858918 A CN 202210858918A CN 115018824 A CN115018824 A CN 115018824A
Authority
CN
China
Prior art keywords
cnn
fusion
transformer
branch
colonoscope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210858918.4A
Other languages
English (en)
Other versions
CN115018824B (zh
Inventor
胡凯
黄扬林
张园
高协平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202210858918.4A priority Critical patent/CN115018824B/zh
Publication of CN115018824A publication Critical patent/CN115018824A/zh
Application granted granted Critical
Publication of CN115018824B publication Critical patent/CN115018824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0409Adaptive resonance theory [ART] networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30028Colon; Small intestine
    • G06T2207/30032Colon polyp
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于CNN和Transformer融合的结肠镜息肉图像分割方法,其步骤为:S1,将结肠镜息肉图像数据集划分为训练、验证和测试样本集;S2,对样本集进行数据预处理操作;S3,使用预处理后训练和验证样本集对神经网络模型进行训练、验证,并保存训练好的神经网络模型;S4,将预处理后测试样本集输入训练好的神经网络模型中,得到结肠镜息肉图像粗分割结果;S5,对结肠镜息肉图像粗分割结果进行图像后处理操作,得到最终分割结果。本发明创新性设计了一种CNN和Transformer神经网络融合模型,其弥补了CNN和Transformer分支特征融合过程中因学习范式差异而产生的潜在问题,进而充分利用两者特征互补性,有效地解决了息肉难以定位、细节难以捕获以及伪装性区域难以辨别问题。

Description

一种基于CNN和Transformer融合的结肠镜息肉图像分割方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于CNN和Transformer融合的结肠镜息肉图像分割方法。
背景技术
结直肠癌(Colorectal Cancer,CRC)已经逐渐成为对人类健康的严重威胁,据公开文献记载,结直肠癌目前是世界上第三大常见癌症,也是癌症死亡率第四高的病种,且仍呈现逐步上升的趋势。而CRC患者存活率很大程度上取决于检测到病症的阶段,早期的检测和治理可以有效控制病情,大幅提升CRC患者存活率。
现有结直肠癌诊断方法中,结肠镜(Colonoscopy)检查是早期筛查最有效的方法,其可以直观的观察到肿瘤的大小、形状等特征,从而辅助医生及时识别和切除息肉病灶区域,防止其进一步扩散。然而,临床诊断中,息肉区域漏检率高达6%,其中有两方面关键因素影响了诊断结果:1)客观因素。息肉的大小与病变情况多样,导致医生难以检测具有强大伪装性的息肉区域;2)主观因素。息肉检测结果会因医生经验差别以及医生个人状态差别而造成偏差。因此,医生人工检测的方法尚不能充分挖掘患者结肠镜图像信息。
目前,现有结肠镜息肉图像分割方法主要分为传统方法和深度学习方法两大类。传统方法主要依赖于手工提取的特征,但由于制作的特征表达能力相当有限,易受到息肉区域形状等因素的影响,导致对噪声点和对比度非常敏感,因此并不能很好的胜任息肉分割这项工作。近年来,深度学习方法因其高效的特征提取能力和良好的特征表达能力,在息肉分割研究方向上受到了广泛的应用,主要包含CNN和Transformer两大类模型方法。其中CNN模型方法擅长于捕获局部特征中的细节信息,而在建模长距离依赖关系能力上有所不足;与此相反,Transformer模型方法擅长于建模长距离依赖关系,而在捕获细节信息方面能力有所不足。尽管目前已有研究开始尝试将两者结合,但是这种早期的尝试并未充分考虑到由于CNN和Transformer模型间学习范式差异而产生的语义鸿沟问题,因此如何充分利用CNN和Transformer模型各自优势,赋予深度学习模型更强大的特征表达能力,仍是摆在我们面前的难题。
发明内容
为了解决现有技术存在的上述技术问题,本发明提供了一种基于CNN和Transformer融合的结肠镜息肉图像分割方法,其有效缓解了CNN和Transformer模型因学习范式差异而产生的语义鸿沟问题,进而全面充分利用了CNN和Transformer模型各自优势,使学习的特征表示强大且具有泛化性,提高了结肠镜息肉图像分割的准确性。
本发明解决上述技术问题的技术方案是:一种基于CNN和Transformer融合的结肠镜息肉图像分割方法,包括以下步骤:
S1:将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集;
S2:对步骤S1划分好的样本集,采用包括多尺度训练策略调整尺寸大小、标准化在内的数据预处理操作;
S3:使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证,并保存训练完成后的神经网络模型;
S4:将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中,得到结肠镜息肉图像粗分割结果;
S5:对步骤S4获取到的结肠镜息肉图像粗分割结果,采用包括全连接条件随机场、孔洞填充算法在内的图像后处理操作,进一步细化并得到结肠镜息肉图像分割最终结果。
优选地,所述步骤S1具体为:将获取到的结肠镜息肉图像数据集按0.8:0.1:0.1比例随机划分为训练样本集、验证样本集和测试样本集。
优选地,所述步骤S2具体为:对步骤S1划分好的样本集统一调整到352×352尺寸大小,在此基础上进一步采用多尺度训练策略按{0.75,1,1.25}缩放系数将统一尺寸后的样本集图像随机调整为264×264、352×352和440×440尺寸大小;
接着,对尺寸调整后的每个样本进行均值方差标准化操作,即按通道减去均值,再除以方差。
优选地,所述步骤S3具体为:使用步骤S2获取到的预处理后训练样本集和验证样本集对CNN和Transformer神经网络融合模型进行训练、验证,当迭代次数达到设定值时停止训练过程,并保存验证样本集上分割性能最佳时的CNN和Transformer神经网络融合模型。
优选地,步骤S3中所述CNN和Transformer神经网络融合模型为一个编码-解码架构,具体为:
在CNN和Transformer神经网络融合模型编码部分,将步骤S2获取到的预处理后样本集分别输入到预先训练好的CNN模型和Transformer模型中,以从局部和全局两个视角对结肠镜下息肉图像进行特征提取。
接着,将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块,获得多尺度下注意力加权的融合特征。这一融合过程具体如下:
S3-1,利用公式
Figure BDA0003756879330000031
捕获来自不同尺度的信息,并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符。其中,ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;frfb(·)表示RFB策略,用于进行多尺度特征学习;
Figure BDA0003756879330000032
表示矩阵乘法;Concat(·)表示特征拼接。
S3-2,利用公式
Figure BDA0003756879330000033
Figure BDA0003756879330000034
将步骤S3-1获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征,此时CNN分支编码特征和Transformer分支编码特征通过多尺度上下文信息加权,缓解了因两者学习范式差异而产生的巨大语义鸿沟,生成了兼具两者特性加权下的融合特征。其中,fi表示多尺度特征信息描述符;ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;
Figure BDA0003756879330000035
表示矩阵乘法;f1×1(·)表示1×1卷积操作。
S3-3,利用公式
Figure BDA0003756879330000036
将步骤S3-2特征引导后的CNN和Transformer分支编码特征重新融合,加强整体信息表示。其中,
Figure BDA0003756879330000037
表示对应位置元素相加。
在CNN和Transformer神经网络融合模型解码部分,将步骤S3-3获取到的不同层次双分支融合特征输入到渐进式注意力解码模块,获得逐层高级语义信息指导后的解码特征。这一解码过程具体如下:
S3-4,利用公式
Figure BDA0003756879330000038
将高层语义信息逐层加权于低层特征信息中,生成全局引导和细节优化后的解码特征。其中,
Figure BDA0003756879330000039
表示第i层双分支融合特征,为低层特征;
Figure BDA00037568793300000310
表示第j层双分支融合特征,为高层特征;DA(·)表示双重注意力机制。
S3-5,对步骤S3-4获得的解码特征hi使用1×1卷积和Sigmoid激活层,计算得到结肠镜图像中每个像素属于息肉区域的分类概率。
优选地,所述步骤S4具体为:使用步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的CNN和Transformer神经网络融合模型中,得到每张结肠镜息肉图像区域的像素级概率预测,即结肠镜息肉图像粗分割结果。
优选地,所述步骤S5具体为:将步骤S4获取到的结肠镜息肉图像粗分割结果采用全连接条件随机场来修正细碎的错分区域,以及采用基于漫水填充法的孔洞填充法来填补小孔洞噪声,进而获取细化后的结肠镜息肉图像分割最终结果。
本发明的有益效果是:本发明基于多尺度策略和注意力机制创造性构造的双分支融合模块,有效缓解了CNN和Transformer分支的语义鸿沟,进而充分利用了CNN分支捕获细节信息以及Transformer分支建模长距离依赖关系能力,更好地解决了不同尺寸大小息肉难以定位以及细节难以捕获问题。其次,本发明通过渐进式注意力解码模块,将高层双分支融合特征语义信息逐层加权于低层双分支融合特征,从而达到增强局部细节,抑制不相关区域的目标,更好地解决了伪装性息肉区域难以辨别问题。本发明通过一种简单高效的图像后处理方法,更好地修正了细碎的错分区域和减轻了斑点噪声的影响,优化了最终的分割结果。
附图说明
图1为本发明的流程图;
图2为本发明中CNN和Transformer神经网络融合模型结构示意图;
图3为本发明中CNN和Transformer神经网络融合模型编码部分的双分支融合模块示意图;
图4为本发明中CNN和Transformer神经网络融合模型解码部分的渐进式注意力解码模块示意图。
具体实施方式
下面将结合附图和具体实施例对本发明的实施方案作进一步详细描述。
参见图1,图1为本发明的流程图,本发明中一种基于CNN和Transformer融合的结肠镜息肉图像分割方法整体流程包括:
S1:将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集。具体为:
S1-1:本实施例选用五个公开且具有挑战性的结肠镜息肉图像数据集(CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB、ETIS-LaribPolypDB)作为实验数据集。
S1-2:将获取到的五个结肠镜息肉图像数据集均按0.8:0.1:0.1比例随机划分为训练样本集、验证样本集、测试样本集,再将划分后的训练样本集、验证样本集、测试样本集各自合并,最终得到来自不同采样环境下形式多样的息肉图像样本集。
S2:对步骤S1划分好的样本集进行数据预处理操作。具体为:
S2-1:将步骤S1划分好的样本集中原始分辨率息肉图像统一调整到352×352尺寸大小,在此基础上进一步采用多尺度训练策略按{0.75,1,1.25}缩放系数将统一尺寸后的息肉图像随机调整为264×264、352×352和440×440尺寸大小。
S2-2:对步骤S2-1尺寸调整后的每个样本,采用ImageNet数据集抽样计算的均值[0.485,0.456,0.406]和方差[0.229,0.224,0.225],进行均值方差标准化操作,即按通道减去均值,再除以方差。
S3:使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证,并保存训练完成后的神经网络模型。具体为:
S3-1:将步骤S2获取到的预处理后训练样本集输入到CNN和Transformer神经网络融合模型进行训练,当迭代次数达到设定值(150个迭代)时停止训练过程。
进一步地,参见图2,本发明中CNN和Transformer神经网络融合模型整体为一个编码-解码架构,具体为:
在CNN和Transformer神经网络融合模型编码部分,将步骤S2获取到的预处理后训练样本集输入到预训练好的CNN模型ResNet34中,用于捕获结肠镜下息肉图像局部细节信息;以及将步骤S2获取到的预处理后训练样本集输入到预训练好的Transformer模型Pyramid Vision Transformer v2-B2中,用于建模结肠镜下息肉图像远距离依赖关系。
接着,将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块,利用多尺度策略和注意力机制来弥补两分支间的语义鸿沟问题,生成兼具CNN和Transformer双分支各自优势的融合编码特征。
进一步地,参见图3,本发明中CNN和Transformer神经网络融合模型编码部分中双分支融合模块,具体为:
利用公式
Figure BDA0003756879330000051
捕获来自不同尺度的信息,并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符。其中,ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;frfb(·)表示RFB策略,用于进行多尺度特征学习;
Figure BDA0003756879330000052
表示矩阵乘法;Concat(·)表示特征拼接。
利用公式
Figure BDA0003756879330000053
Figure BDA0003756879330000054
将获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征,此时CNN和Transformer分支编码特征通过多尺度上下文信息加权,缓解了因两者学习范式差异而产生的巨大语义鸿沟,生成了兼具两者特性加权下的融合特征。其中,fi表示多尺度特征信息描述符;ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;
Figure BDA0003756879330000055
表示矩阵乘法;f1×1(·)表示1×1卷积操作。
利用公式
Figure BDA0003756879330000056
将特征引导后的CNN和Transformer分支编码特征重新融合,加强整体信息表示。其中,
Figure BDA0003756879330000057
表示对应位置元素相加。
在CNN和Transformer神经网络融合模型解码部分,将融合模型编码部分获取到的不同层次双分支融合特征输入到渐进式注意力解码模块,获得逐层高级语义信息指导后的解码特征。
进一步地,参见图4(a),本发明中CNN和Transformer神经网络融合模型解码部分中渐进式注意力解码模块,具体为:
利用公式
Figure BDA0003756879330000061
将高层特征语义信息逐层加权于低层特征信息中,生成全局引导和细节优化后的解码特征。其中,
Figure BDA0003756879330000062
表示第i层双分支融合特征,为低层特征;
Figure BDA0003756879330000063
表示第j层双分支融合特征,为高层特征;DA(·)表示双重注意力机制。
进一步地,参见图4(b),本发明中CNN和Transformer神经网络融合模型解码部分的渐进式注意力解码模块中双重注意力机制,具体为:
在空间注意力机制上:
利用公式
Figure BDA0003756879330000064
Figure BDA0003756879330000065
对第i层双分支融合特征图和第j层双分支融合特征图做卷积操作,以获得相同的通道数和尺寸大小。其中,f1×1(·)表示1×1卷积操作;GN(·)表示组标准化操作。
利用公式
Figure BDA0003756879330000066
将低层特征
Figure BDA0003756879330000067
和高层特征
Figure BDA0003756879330000068
融合得到新融合特征
Figure BDA0003756879330000069
并对其进行ReLU激活操作。其中,ReLU(·)为线性整流激活函数;
Figure BDA00037568793300000610
表示对应位置元素相加。
利用公式
Figure BDA00037568793300000611
对新融合
Figure BDA00037568793300000612
进行卷积操作,用于整合信息,提高特征的抽象能力,并进一步对卷积后特征使用Sigmoid函数激活,将特征值归一化到[0,1]之间,得到注意力掩膜
Figure BDA00037568793300000613
其中,f1×1(·)表示1×1卷积操作。
利用公式
Figure BDA00037568793300000614
将注意力掩膜
Figure BDA00037568793300000615
重采样后得到的权重图与第i层双分支融合特征相乘,使目标区域获得更多的关注,进而得到空间引导后的特征
Figure BDA00037568793300000616
其中,Resample(·)表示重采样操作;
Figure BDA00037568793300000619
表示对应位置元素相乘。
在通道注意力机制上:
首先,采用全局池化操作对第i层双分支融合特征
Figure BDA00037568793300000617
进行压缩操作,使二维的特征通道变成一个实数,该实数具有全局感受野。接着,引入两个全连接层来建模通道间的相关性,并输出一个与输入特征
Figure BDA00037568793300000618
相同数目的权重。其中,在两个全连接层中间引入ReLU函数进行激活,使学习到的特征具有更多的非线性,从而更好地拟合通道间的复杂相关性。最后,通过Sigmoid激活函数获得[0,1]之间的权重
Figure BDA0003756879330000071
利用公式
Figure BDA0003756879330000072
将学习到的通道注意力权重加权到经空间引导后的低层特征
Figure BDA0003756879330000073
上。其中,
Figure BDA0003756879330000077
表示对应位置元素相乘。
利用公式
Figure BDA0003756879330000074
对经过空间、通道注意力加权后的特征
Figure BDA0003756879330000075
采用非线性映射操作,进行信息的整合,增加更多的非线性因素与提高最终的泛化能力,进而得到双重注意力机制最终输出特征Oi。其中,ReLU(·)为线性整流激活函数;GN(·)表示组标准化操作;f1×1(·)表示1×1卷积操作。
进一步地,对渐进式注意力解码模块获得的解码特征hi使用1×1卷积和Sigmoid激活层,计算得到结肠镜图像中每个像素属于息肉区域的分类概率。
进一步地,对计算得到的概率值利用加权交叉熵和加权IoU混合损失函数得到神经网络模型整体损失值,并通过自适应梯度法(AdamW优化器)来优化模型参数,使损失不断的趋近最小值来训练神经网络模型。
S3-2:将步骤S2获取到的预处理后验证样本集输入到步骤S3-1已训练完成的CNN和Transformer神经网络融合模型中,使用分割常用指标Dice相似系数计算得到验证样本集分割性能,并保存验证样本集上分割性能最佳时的CNN和Transformer神经网络融合模型参数相关信息。
S4:将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中,得到结肠镜息肉图像粗分割结果。具体为:
S4-1:将步骤S2获取到的预处理后测试样本集,逐张输入到步骤S3中已训练完成的神经网络模型中,得到结肠镜息肉图像粗分割结果并将其以PNG格式保存用作后续图像后处理操作输入。
S5:对步骤S4获取到的结肠镜息肉图像粗分割结果,采用图像后处理操作进一步细化并得到最终分割结果。具体为:
S5-1:对步骤S4中神经网络模型得到的结肠镜息肉图像粗分割结果,采用全连接条件随机场来修正细碎的错分区域。具体为:
将步骤S4中神经网络模型粗分割结果的概率分布图作为全连接条件随机场的一元势能,原始结肠镜图像则提供二元势能中的位置和颜色信息。其中,全连接条件随机场的能量函数公式如下:
Figure BDA0003756879330000076
式中,能量函数第一项ψU(xi)为一元势能函数,用于衡量当像素点i的观测值为yi时,该像素点属于类别标签xi的概率;能量函数第二项ψP(xi,xj)为二元势能函数,用于描述像素之间的关系,并将颜色和相对距离较近的像素归为一类,其计算公式如下:
Figure BDA0003756879330000081
式中,U(xi,xj)为标签兼容项,用于约束像素间传导条件,只有相同标签条件下,能量才可以互相传导;ωm为权值参数,用于平衡函数;
Figure BDA0003756879330000082
为特征函数,其表达式如下:
Figure BDA0003756879330000083
式中,pi和pj代表像素i与像素j的特征向量。
通过上述过程对结肠镜息肉图像粗分割结果细化时,如果相似区域的像素点被判别为不同类时,能量函数值会变得较大;如果存在差异的区域判别为同一类时,也会产生较大的能量函数值。通过多次迭代,使能量函数值最小化来获得细化后的息肉分割结果。
S5-2:将经过步骤S5-1全连接条件随机场细化后的息肉分割结果图,进一步采用基于漫水填充法的孔洞填充算法来填补因斑点噪声产生的孔洞。具体为:
将经过步骤S5-1全连接条件随机场细化后的息肉分割结果图,用作基于漫水填充法的孔洞填充算法输入I。
首先,创建像素初始值与输入图像I相同的图像I',并确定图像I'的感兴趣区域。
然后,初始化图像I'的种子点Sp,并对种子点的4邻域像素点进行遍历,如果种子点像素值减去邻域像素点像素值小于设定阈值T,则将该邻域像素点添加进感兴趣区域,并将其设置为新的种子点Sp。
最后,对原始输入图像I与取反后种子填充后图像I'作按位或运算,得到孔洞填充算法细化后的最终分割结果Fpre。
以上所述仅用作说明本发明的设计思路和实施方案,而非对其限制,本领域的技术人员应当理解,对本发明的技术方案进行修改或等同替换的其他方案仍包含在本申请的权利要求所限定范围之内。

Claims (6)

1.一种基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,包括以下步骤:
S1:将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集;
S2:对步骤S1划分好的样本集,采用包括多尺度训练策略调整尺寸大小、标准化在内的数据预处理操作;
S3:使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证,并保存训练完成后的神经网络模型;
S4:将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中,得到结肠镜息肉图像粗分割结果;
S5:对步骤S4获取到的结肠镜息肉图像粗分割结果,采用包括全连接条件随机场、孔洞填充算法在内的图像后处理操作,进一步细化并得到结肠镜息肉图像分割最终结果。
2.根据权利要求1所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,所述步骤S2中对步骤S1划分好的样本集调整为352×352,进一步采用多尺度训练策略按{0.75,1,1.25}缩放系数将样本集图像随机调整为264×264、352×352和440×440大小;对调整后的每个样本进行均值方差标准化操作。
3.根据权利要求1所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,所述步骤S3中的神经网络模型为CNN和Transformer神经网络融合模型,具体为:
在CNN和Transformer神经网络融合模型编码部分,将获取到的预处理后样本集分别输入到预先训练好的CNN模型和Transformer模型中,以从局部和全局两个视角对结肠镜下息肉图像进行特征提取,并将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块,利用多尺度策略和注意力机制来弥补两分支间的语义鸿沟问题,生成兼具CNN和Transformer双分支各自优势的融合编码特征;
在CNN和Transformer神经网络融合模型解码部分,将编码部分中获取到的不同层次双分支融合特征输入到渐进式注意力解码模块,获得逐层高级语义信息指导后的解码特征,并对解码特征使用1×1卷积和Sigmoid激活层,计算得到结肠镜图像中每个像素属于息肉区域的分类概率。
4.根据权利要求3所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,所述CNN和Transformer神经网络融合模型编码部分中双分支融合模块,具体为:
利用公式
Figure FDA0003756879320000021
捕获来自不同尺度的信息,并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符;其中,ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;frfb(·)表示RFB策略,用于进行多尺度特征学习;
Figure FDA0003756879320000022
表示矩阵乘法;Concat(·)表示特征拼接;
利用公式
Figure FDA0003756879320000023
Figure FDA0003756879320000024
将获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征,此时CNN和Transformer分支编码特征通过多尺度上下文信息加权,缓解了因两者学习范式差异而产生的巨大语义鸿沟,生成了兼具两者特性加权下的融合特征;其中,fi表示多尺度特征信息描述符;ci表示CNN分支编码的特征;ti表示Transformer分支编码的特征;
Figure FDA0003756879320000025
表示矩阵乘法;f1×1(·)表示1×1卷积操作;
利用公式
Figure FDA0003756879320000026
将特征引导后的CNN和Transformer分支编码特征重新融合,
Figure FDA0003756879320000027
表示对应位置元素相加。
5.根据权利要求3所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,所述CNN和Transformer神经网络模型解码部分中渐进式注意力解码模块,具体为:
利用公式
Figure FDA0003756879320000028
将高层语义信息逐层加权于低层特征信息中,生成全局引导和细节优化后的解码特征;其中,
Figure FDA0003756879320000029
表示第i层双分支融合特征,为低层特征;
Figure FDA00037568793200000210
表示第j层双分支融合特征,为高层特征;DA(·)表示双重注意力机制。
6.根据权利要求5所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法,其特征在于,所述CNN和Transformer神经网络模型解码部分的渐进式注意力解码模块中双重注意力机制具体为:
在空间注意力机制上:利用公式
Figure FDA00037568793200000211
Figure FDA00037568793200000212
对第i层双分支融合特征图和第j层双分支融合特征图做卷积操作,以获得相同的通道数和尺寸大小;其中,f1×1(·)表示1×1卷积操作;GN(·)表示组标准化操作;
利用公式
Figure FDA00037568793200000213
将低层特征
Figure FDA00037568793200000214
和高层特征
Figure FDA00037568793200000215
融合得到新融合特征
Figure FDA00037568793200000216
并对其进行ReLU激活操作;其中,ReLU(·)为线性整流激活函数;
Figure FDA00037568793200000217
表示对应位置元素相加;
利用公式
Figure FDA00037568793200000218
对新融合
Figure FDA00037568793200000219
进行卷积操作,用于整合信息,提高特征的抽象能力,并进一步对卷积后特征使用Sigmoid函数激活,将特征值归一化到[0,1]之间,得到注意力掩膜
Figure FDA0003756879320000031
其中,f1×1(·)表示1×1卷积操作;
利用公式
Figure FDA0003756879320000032
将注意力掩膜
Figure FDA0003756879320000033
重采样后得到的权重图与第i层双分支融合特征相乘,使目标区域获得更多的关注,进而得到空间引导后的特征
Figure FDA0003756879320000034
其中,Resample(·)表示重采样操作;
Figure FDA0003756879320000035
表示对应位置元素相乘;
在通道注意力机制上:采用全局池化操作对第i层双分支融合特征
Figure FDA0003756879320000036
进行压缩操作,使二维的特征通道变成一个实数,该实数具有全局感受野;引入两个全连接层来建模通道间的相关性,并输出一个与输入特征
Figure FDA0003756879320000037
相同数目的权重;在两个全连接层中间引入ReLU函数进行激活,这样学习到的特征具有更多的非线性,从而更好地拟合通道间的复杂相关性;通过Sigmoid激活函数获得[0,1]之间的权重
Figure FDA0003756879320000038
利用公式
Figure FDA0003756879320000039
将学习到的通道注意力权重加权到经空间引导后的低层特征
Figure FDA00037568793200000310
上;其中,
Figure FDA00037568793200000311
表示对应位置元素相乘;
利用公式
Figure FDA00037568793200000312
对经过空间、通道注意力加权后的特征
Figure FDA00037568793200000313
采用非线性映射操作,进行信息的整合,增加更多的非线性因素与提高最终的泛化能力,进而得到双重注意力机制最终输出特征Oi;其中,ReLU(·)为线性整流激活函数;GN(·)表示组标准化操作;f1×1(·)表示1×1卷积操作。
CN202210858918.4A 2022-07-21 2022-07-21 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 Active CN115018824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210858918.4A CN115018824B (zh) 2022-07-21 2022-07-21 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210858918.4A CN115018824B (zh) 2022-07-21 2022-07-21 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法

Publications (2)

Publication Number Publication Date
CN115018824A true CN115018824A (zh) 2022-09-06
CN115018824B CN115018824B (zh) 2023-04-18

Family

ID=83082292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210858918.4A Active CN115018824B (zh) 2022-07-21 2022-07-21 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法

Country Status (1)

Country Link
CN (1) CN115018824B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375712A (zh) * 2022-10-25 2022-11-22 西南科技大学 一种基于双边学习分支实现实用的肺部病变分割方法
CN115439470A (zh) * 2022-10-14 2022-12-06 深圳职业技术学院 息肉图像分割方法、计算机可读存储介质及计算机设备
CN115661820A (zh) * 2022-11-15 2023-01-31 广东工业大学 一种基于密集特征反向融合的图像语义分割方法及系统
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116188435A (zh) * 2023-03-02 2023-05-30 南通大学 一种基于模糊逻辑的医学图像深度分割方法
CN116503420A (zh) * 2023-04-26 2023-07-28 佛山科学技术学院 一种基于联邦学习的图像分割方法及相关设备
CN116563707A (zh) * 2023-05-08 2023-08-08 中国农业科学院农业信息研究所 一种基于图文多模态特征融合的枸杞虫害识别方法
CN117115178A (zh) * 2023-08-23 2023-11-24 国网四川省电力公司电力科学研究院 一种基于半参数共享的电力红外巡检图像分割、检测方法
CN117115178B (zh) * 2023-08-23 2024-05-14 国网四川省电力公司电力科学研究院 一种基于半参数共享的电力红外巡检图像分割、检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264484A (zh) * 2019-06-27 2019-09-20 上海海洋大学 一种面向遥感数据的改进海岛岸线分割系统及分割方法
CN113706545A (zh) * 2021-08-23 2021-11-26 浙江工业大学 一种基于双分支神经判别降维的半监督图像分割方法
CN113989301A (zh) * 2021-10-29 2022-01-28 浙江工业大学 一种融合多种注意力机制神经网络的结直肠息肉分割方法
CN114092439A (zh) * 2021-11-18 2022-02-25 深圳大学 一种多器官实例分割方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264484A (zh) * 2019-06-27 2019-09-20 上海海洋大学 一种面向遥感数据的改进海岛岸线分割系统及分割方法
CN113706545A (zh) * 2021-08-23 2021-11-26 浙江工业大学 一种基于双分支神经判别降维的半监督图像分割方法
CN113989301A (zh) * 2021-10-29 2022-01-28 浙江工业大学 一种融合多种注意力机制神经网络的结直肠息肉分割方法
CN114092439A (zh) * 2021-11-18 2022-02-25 深圳大学 一种多器官实例分割方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUNDONG ZHANG 等: "TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation", 《ARXIV》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439470A (zh) * 2022-10-14 2022-12-06 深圳职业技术学院 息肉图像分割方法、计算机可读存储介质及计算机设备
CN115439470B (zh) * 2022-10-14 2023-05-26 深圳职业技术学院 息肉图像分割方法、计算机可读存储介质及计算机设备
CN115375712A (zh) * 2022-10-25 2022-11-22 西南科技大学 一种基于双边学习分支实现实用的肺部病变分割方法
CN115661820B (zh) * 2022-11-15 2023-08-04 广东工业大学 一种基于密集特征反向融合的图像语义分割方法及系统
CN115661820A (zh) * 2022-11-15 2023-01-31 广东工业大学 一种基于密集特征反向融合的图像语义分割方法及系统
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116188435B (zh) * 2023-03-02 2023-11-07 南通大学 一种基于模糊逻辑的医学图像深度分割方法
CN116188435A (zh) * 2023-03-02 2023-05-30 南通大学 一种基于模糊逻辑的医学图像深度分割方法
CN116503420A (zh) * 2023-04-26 2023-07-28 佛山科学技术学院 一种基于联邦学习的图像分割方法及相关设备
CN116503420B (zh) * 2023-04-26 2024-05-14 佛山科学技术学院 一种基于联邦学习的图像分割方法及相关设备
CN116563707A (zh) * 2023-05-08 2023-08-08 中国农业科学院农业信息研究所 一种基于图文多模态特征融合的枸杞虫害识别方法
CN116563707B (zh) * 2023-05-08 2024-02-27 中国农业科学院农业信息研究所 一种基于图文多模态特征融合的枸杞虫害识别方法
CN117115178A (zh) * 2023-08-23 2023-11-24 国网四川省电力公司电力科学研究院 一种基于半参数共享的电力红外巡检图像分割、检测方法
CN117115178B (zh) * 2023-08-23 2024-05-14 国网四川省电力公司电力科学研究院 一种基于半参数共享的电力红外巡检图像分割、检测方法

Also Published As

Publication number Publication date
CN115018824B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN115018824B (zh) 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法
Xia et al. A multi-scale segmentation-to-classification network for tiny microaneurysm detection in fundus images
AU2020306013A1 (en) Machine learning systems and methods for improved localization of image forgery
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN112465905A (zh) 基于深度学习的磁共振成像数据的特征脑区定位方法
He et al. Deep learning powers cancer diagnosis in digital pathology
CN111161271A (zh) 一种超声图像分割方法
Arif et al. Automated detection of nonmelanoma skin cancer based on deep convolutional neural network
CN117132774B (zh) 一种基于pvt的多尺度息肉分割方法及系统
Chapala et al. ResNet: detection of invasive ductal carcinoma in breast histopathology images using deep learning
CN113706544A (zh) 一种基于完备注意力卷积神经网络的医学图像分割方法
CN115965630A (zh) 一种基于内窥镜图像的深度融合的肠息肉分割方法及装置
Kanchanamala et al. Optimization-enabled hybrid deep learning for brain tumor detection and classification from MRI
Zhang et al. TUnet-LBF: Retinal fundus image fine segmentation model based on transformer Unet network and LBF
CN116563285B (zh) 一种基于全神经网络的病灶特征识别与分割方法及系统
CN112233017B (zh) 一种基于生成对抗网络的病态人脸数据增强方法
CN114140437A (zh) 一种基于深度学习的眼底硬渗出物分割方法
Redhya et al. Refining PD classification through ensemble bionic machine learning architecture with adaptive threshold based image denoising
Li et al. MFA-Net: Multiple Feature Association Network for medical image segmentation
CN112488996A (zh) 非齐次三维食管癌能谱ct弱监督自动标注方法与系统
Huang et al. DBFU-Net: Double branch fusion U-Net with hard example weighting train strategy to segment retinal vessel
Hwang et al. An adaptive regularization approach to colonoscopic polyp detection using a cascaded structure of encoder–decoders
Ovi et al. Infection segmentation from covid-19 chest ct scans with dilated cbam u-net
Pei et al. FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction
Jin et al. Foveation for segmentation of mega-pixel histology images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant