CN116503422A - 一种基于注意力机制与多尺度特征融合的视杯视盘分割方法 - Google Patents
一种基于注意力机制与多尺度特征融合的视杯视盘分割方法 Download PDFInfo
- Publication number
- CN116503422A CN116503422A CN202310432609.5A CN202310432609A CN116503422A CN 116503422 A CN116503422 A CN 116503422A CN 202310432609 A CN202310432609 A CN 202310432609A CN 116503422 A CN116503422 A CN 116503422A
- Authority
- CN
- China
- Prior art keywords
- image
- segmentation
- channel
- network
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004927 fusion Effects 0.000 title claims abstract description 23
- 230000007246 mechanism Effects 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000010586 diagram Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 3
- 210000004204 blood vessel Anatomy 0.000 claims abstract description 3
- 238000012360 testing method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000005286 illumination Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 230000005489 elastic deformation Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000008034 disappearance Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 claims 1
- 238000000844 transformation Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000003709 image segmentation Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000000306 recurrent effect Effects 0.000 abstract 1
- 208000010412 Glaucoma Diseases 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 210000003733 optic disk Anatomy 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 201000004569 Blindness Diseases 0.000 description 1
- 208000028389 Nerve injury Diseases 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 208000030533 eye disease Diseases 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008764 nerve damage Effects 0.000 description 1
- 210000001328 optic nerve Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于空间通道注意力机制与多尺度特征融合的眼底图像视杯视盘分割方法,本方法涉及深度学习和医学图像处理领域,包括:定位网络和分割网络。整体流程图如图1所示。所述定位网络首先对数据集中的原始眼底图像进行视盘定位裁剪;对裁剪图进行预处理和数据增强;分割网络使用基于编码解码结构构建多尺度密集网络模型将数据增强后的眼底图像数据导入眼底图像分割模型中进行训练,获取训练完成的权重,进一步对眼底图像进行分割,最终获取到分割结果。本发明针对眼底图像视杯视盘分割提出的新的递归神经网络结构,解决了由于眼底影像的复杂性,导致视杯与视盘的分割容易受其他部位如血管等因素的干扰,从而使分割的视杯视盘边缘模糊的问题,提升了分割精度。相比于现存算法,具有一定的先进性。
Description
技术领域
本发明涉及深度学习和医学图像处理领域,具体涉及一种基于空间通道注意力机制与多尺度特征融合的视杯视盘分割方法。
背景技术
青光眼是一类以进行性视神经损害为特征的致盲性眼病,目前已成为全球不可逆失明的首要原因。到2040年青光眼患者数量预计将超过1亿,早期青光眼通常没有明显的症状,具有隐匿性,早期的青光眼筛查至关重要。
杯盘比是诊断青光眼的主要衡量指标,眼科医生进行诊断过程非常耗时耗力且相对主观。因此设计一种视杯视盘自动分割方法对于辅助医生提高诊断速度和效果具有重要意义。
当前,眼底图像中视杯视盘的分割技术,主要有基于人工特性的视觉识别技术和基于自动特性的深度学习。基于人工特征的技术,包括基于颜色、纹理、对比度阈值、边缘检测,分割模型以及区域分割等技术。由于眼底图像的复杂性,导致视杯与视盘的分割容易受正常生理结构如血管等因素的干扰,从而影响分割的准确性。传统的眼底图像提取技术采用人工提取,在对比度较低或受病灶影响的情况下,图像的分割效果会下降。所以,进行眼底图像视杯视盘自动分割非常关键。
发明内容
针对现有的视杯视盘分割精准度与灵敏度问题,以及许多模型对噪声的鲁棒性不够强,使得视杯视盘分割结果容易受到眼底图像中噪声因素干扰。尤其是视杯视盘边缘分割质量不够好,分割出的视盘边界容易出现过分割和欠分割问题,本次发明设计了相应的解决策略和方法,提出了基于改进YOLOv7的视盘定位网络和改进的U-Net模型:Fusion-ECA-U-Net(FE-U-Net)用于视盘分割。改进YOLOv7用于视盘定位,为了提高模型的准确性,在YOLOv7中的Backbone部分添加了MC模块。此模块首先将具有不同空洞率的卷积并联,得到了不同感受野的图像信息,在Neck部分添加通道注意力机制,根据通道对任务的贡献为每个通道赋予权值。对于经典U-Net模型灵敏度低、鲁棒性不够好等问题做出改进方案,通过引入空间和通道注意力机制与多尺度特征融合的模块,提升视杯视盘的分割能力,提高分割灵敏度与鲁棒性。
本发明的技术方案:基于空间通道注意力机制与多尺度特征融合的视杯视盘分割方法,流程图如图1包括如下步骤:
S1、对公开的眼底图像进行视盘定位并裁剪出感兴趣区域(ROI);
S2、对裁剪后的视盘区域图像进行预处理;
S3、对预处理之后的图像进行数据增强;
S4、搭建空间和通道注意力机制与多尺度特征融合的分割网络FE-U-Net,并将处理后的数据集传入搭建的网络进行训练,保存训练权重,得到训练好的模型。
S5、将测试集数据传入定位网络裁剪出视盘区后输入步骤3得到的模型中,进行测试,获得分割结果并和人工标注视杯视盘金标准进行对比,得到对比数据以及分割结果。
进一步概括S1包括以下2个步骤:
第一步为改进YOLOv7在YOLOv7中的Backbone部分添加了MC模块,此模块首先将具有不同空洞率的卷积并联,得到了不同感受野的图像信息,在Neck部分添加通道注意力机制,根据通道对任务的贡献为每个通道赋予权值。YOLOv7是一个典型的一阶段目标检测网络,由Backbone、Neck和Head三个组件模块组成。在模型的Backbone部分增加一个MC模块,MC模块如图2所示。该模块用于缩小输出映射,使输出映射变为:[32,32,3×(4+1+1)]、[16,16,3×(4+1+1)]、[8,8,3×(4+1+1)]。此模块在缩小模型输出映射的同时,增强了模型提取特征的能力。使最后的得到的特征映射可以同时保留深、浅层次的特征信息。
进一步概括S2包括以下3个步骤:
第一步是:图像灰度化,对原始图像进行图像灰度化,将三通道图像(彩色图)转化为单通道图像(灰度图),绿色通道图片中视杯视盘与图像背景的对比度更大,噪声更少,所以使用绿色通道的数据作为输入数据。
第二步是:在得到灰度化后的图像,接着我们采用限制对比度自适应直方图均衡化(CLAHE)的方法对得到的灰度图进行对比度增强,增加视盘和背景的区分度,该方法还可以抑制部分的背景噪声,凸显视盘结构。
最后:利用非线性Gamma变换来调整输入眼底图像的光照强度,并对强度值进行非线性运算,使得输入和输出图像的强度值构成指数关系:主要目的是增强图像中较暗的部分,同时保证较亮的部分也不受影响,它可以进一步增大图像的对比度,减少噪声因素的干扰,提高网络分割能力和模型泛化能力。
处理过程中图像变化如图3所示,我们对比(b),(c)可以发现,相比于(c)的绿通道加权灰度化后的结果,CLAHE方法的结果(d)可以有效的提升灰度图中视盘和背景像素的对比度,而对比(d),(e)可发现,在CLAHE结果(d)的基础上使用非线性Gamma变换之后,可以看到视盘区域变得更清晰了,这就说明(e)在(d)的基础上又进一步增大了视盘和背景的对比度差异。图3结果证明了我们通过该预处理流程,可以有效地解决光照不均匀的问题,增大眼底图像视盘和非视盘像素的对比度。我们预处理之后的图片,将有助于后续的深度学习模型在特征提取时能够学到更有表达能力和鲁棒性的特征,提升模型对视盘区和非视盘区像素的区分能力。
进一步地,所述S3包括:
对原始图像进行数据增强,包括:缩放,旋转,水平翻转和垂直翻转,以及B样条弹性形变。为了降低过拟合的影响防止一些局部视盘边缘区域的像素出现偏差,本文对所用数据集进行了随机裁剪工作,在裁剪的时候,为了方便深度网络模型的特征提取,统一设定裁剪大小是512×512dpi。
进一步地,所述S4包括:
在所提出的FE-U-Net模型的训练阶段,我们首先对眼底图像进行预处理和数据增强、将图像裁剪成相同的512×512大小,然后将处理好的眼底图像送入我们的FE-U-Net模型进行全监督训练。
进一步地,所述步骤3包括:
网络模型训练,选择眼底图像公开的两个数据集Refuge和Drishti-GS1将预处理与增强后的数据集,导入到模型中进行训练,采用5折交叉验证进行训练集划分提高网络泛化性,训练结果和金标准进行比较,保存训练的最佳权重。再将训练完成的模型进行测试集训练,最终得到稳定的视杯视盘分割图。
实验参数:
在视网膜眼底血管分割实验中,我们的硬件环境为:NVIDIA GeForce RTX2080Ti显卡,显存11G;操作系统:Ubuntu18.04;Pytorch深度学习框架。采用Adam优化器用于更新参数。其中,初始化学习率(learning rate,lr)设置为1e-4,betas参数设置为(0.9,0.999),批处理大小(batch_size)设置为16,总共训练轮数(epoch)设置为400。在训练过程中,我们采用学习率线性衰减策略,在第t个epoch时的学习率可表示为:
附图说明
图1为分割流程图;
图2为MC模块图;
图3为视盘定位裁剪与预处理结果图;
图4为FE-U-Net网络结构图;
图5为特征融合模块结构图;
图6为BottleNeck模块结构图;
图7为分割结果对比图
图8为泛化分割结果对比图
具体实施方式
以下为结合本发明实施例中附图,对本发明实施技术方案进行清楚、完整描述,所描述为本发明的一部分而不是全部的实施例,基于发明中的实施例,本领域普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护范围。
本发明的方法整体流程图如图1所示,整个流程分为训练和测试两个阶段。
一、训练阶段
如图1所示
训练阶段将图像先进行视盘定位裁剪进行预处理,再进行数据增强,将扩增后数据导入FE-U-Net中进行模型训练,得到训练结果,保存权重。具体如下:
(1)、视盘定位
将眼底图像数据集输入到基于改进YOLOV7的视盘定位网络,获取感兴趣区域也就是视盘所在的区域(ROI)之后裁剪出ROI。
(2)、数据预处理
图像灰度化,对原始图像进行图像灰度化,将三通道图像(彩色图)转化为单通道图像(灰度图),绿通道图片中视杯视盘与图像背景的对比度更大,噪声更少,所以使用绿色通道的数据作为输入数据。在得到灰度化后的图像,接着我们采用限制对比度自适应直方图均衡化(CLAHE)的方法对得到的灰度图进行对比度增强,增加视盘和背景的区分度,利用非线性Gamma变换来调整输入眼底图像的光照强度,并对强度值进行非线性运算,使得输入和输出图像的强度值构成指数关系:主要目的是增强图像中较暗的部分,同时保证较亮的部分也不受影响,它可以进一步增大图像的对比度,减少噪声因素的干扰,提高网络分割能力和模型泛化能力。
(3)、数据增强
我们采用随机裁剪而不是Resize的方法来调整眼底图像的大小。在裁剪的时候,为了方便深度网络模型的特征提取,我们统一设定裁剪大小是512×512dpi。
(4)、网络构建
基于传统的U-Net网络进行改进的Fusion-ECA-U-Net(FE-U-Net)是一个端到端的多标签深度神经网络,网络整体结构如图4所示。在编码过程中加入多尺度特征融合模块,多尺度特征融合模块结构如图5所示,将多尺度特征融合模块添加到网络的第一层和第二层中进行特征融合,减少特征提取过程中的信息丢失并且将低分辨率特征与高分辨率特征融合,提取更多尺度感受野下的特征保留大量细节信息。首先,通过反卷积将低分辨率特征映射恢复到高分辨率大小,然后添加到高分辨率特征映射中,如公式:
所示。然后,将集成的特征映射输入BottleNeck模块中,以提高特征提取的能力,避免梯度消失,BottleNeck模块结构如图6所示。
解码器包含具有通道和空间注意力机制的ECA模块。ECA模块将SE中使用全连接层FC学习通道注意信息,改为1*1卷积学习通道注意信息。使用1*1卷积捕获不同通道之间的信息,避免在学习通道注意力信息时,通道维度减缩。使用一种不降维的局部跨通道交互策略,有效避免了降维对于通道注意力学习效果的影响。对输入特征图进行空间特征压缩;实现在空间维度,使用全局平均池化GAP,得到1*1*C的特征图对压缩后的特征图,进行通道特征学习,通过1*1卷积,学习不同通道之间的重要性,最后与通道注意力结合,将通道注意力的特征图1*1*C、原始输入特征图H*W*C,进行逐通道乘,最终输出具有通道注意力的特征图。从而在一个迭代中,能够求出算法的解,以保持U-Net的端对端特性。同时,得到更细致的视杯视盘分割边界。在此基础上,通过跳跃式连接,可以在同一尺度上进行不同层次的语义信息的融合,从而使编码器能够更好地提取出更多的有用特征。浅层次特征能使图像的原始结构信息得到最大程度的保存,而更深层次的信息则含有更多的抽象结构,二者的结合有助于在最终的卷积信道中得到有效地还原物体的空间维度和结构细节,从而改善分割的准确度。
网络测试:
在测试集上进行测试,我们的FE-U-Net在多个指标上都超越了许多近几年的其它深度学习方法,在4个指标:AUC、Dice、MIoU和Accuracy上分别达到95.99%,92.24,92.11%和93.27%,在4个评价指标中,都优于其他模型。提出的FE-U-Net在测试数据集上的AUC相比U-Net提升约3.2%,相比M-Net提升约3.14%,相比CENet提升约2.65%,,相比Res-Net提升约2.52%,相比Seg-Net提升约0.76%。Dice相比U-Net提升约0.092%,相比M-Net提升约1.03%,相比CENet提升约1.01%,,相比Res-Net提升约0.083%,相比Seg-Net提升约0.033%。MIoU相比U-Net提升约1.84%,相比M-Net提升约1.65%,相比CENet提升约0.045%,,相比Res-Net提升约0.031%,相比Seg-Net提升约0.006%。Accuracy相比U-Net提升约13.41%,相比M-Net提升约10.89%,相比CENet提升约7.63%,,相比Res-Net提升约7.8%,相比Seg-Net提升约3.34%。
表1在Refuge和Drishti-GS1数据集上各模块对比实验
分割结果如图7所示网络输出的分割结果形状更接近于专家标注的图像形状,且噪声点更少;从细节来看,FE-U-Net网络输出的分割结果显示边缘不规则形状更少,且更加平滑。
从实验结果的对比可以看到,我们的FE-U-Net在两个常见的眼底图像数据集Refuge和Drishti-GS1上超越了很多近年来的经典方法和模型的性能,在多个指标上具备较强的竞争力。与其它一些经典的视杯视盘分割方法相比,它不仅可以很好的提升Acc、AUC和Dice、MIoU等评价指标,而且还可以很好地提升视杯视盘分割的可视化质量,特别是提升一些边界模糊的视杯视盘的分割质量和效果。我们的FE-U-Net分割出的视杯视盘相对于其它一些方法更加的清晰,视杯视盘轮廓边界也更加的清晰和完整。我们的模型对一些较为模糊的轮廓和有背景噪声干扰的视杯视盘边界区域等也更加的敏感,能够成功地分割出一些其它模型难以分割出的视杯视盘微小轮廓等。
为了验证FE-U-Net架构的泛化性,本文在RIM-ONE-v3数据集上做了与上部分相同的实验。RIM-ONE-v3数据集有159张图片每张图片都由两位专家标注,相比于Refuge和Drishti-GS1数据集图像对比度更低。图8为网络泛化测试结果对比图可视化。我们的FE-U-Net对于模糊边界更加敏感,更能够保留更多的视杯视盘边缘轮廓细节信息,且分割出的视杯视盘更加清晰,分割的边界不连续现象相对其它一些方法要更少,同时,分割出的视杯视盘形态结构和专家标注的label也更接近。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (4)
1.一种基于注意力机制与多尺度特征融合的视杯视盘分割方法,其特征在于,包括:
S11:将眼底图像数据集输入基于改进YOLOv7的定位网络进行视盘定位并裁剪出视盘所在区域。
S12:对裁剪后图片进行预处理,包括灰度变换、直方图均值化;
S13:预处理后的图像进行数据增强,由于公开数据集数量比较少,所以需要对数据集进行变换以增强图像,扩展数据集;
S14:提出了一种新的网络框架:Fusion-ECA-U-Net(FE-U-Net)。由编码和解码结构组成的U形网络结构。在编码过程中丢失了许多信息特征。为解决此问题提出特征融合模块,在编码过程的第一层和第二层中加入多尺度特征融合模块。将低分辨率特征与高分辨率特征融合,提取更多尺度感受野下的特征保留大量细节信息。它包含一个上采样操作和一个残差结构。解码器模块中添加空间通道注意力模块ECA,将SE中使用全连接层FC学习通道注意信息,改为1*1卷积学习通道注意信息。使用1*1卷积捕获不同通道之间的信息,避免在学习通道注意力信息时,通道维度减缩。使用一种不降维的局部跨通道交互策略,有效避免了降维对于通道注意力学习效果的影响。从而在一个迭代中,能够求出算法的解,以保持U-Net的端对端特性。同时,得到更细致的视杯视盘分割边界。在此基础上,通过跳跃式连接,可以在同一尺度上进行不同层次的语义信息的融合,从而使编码器能够更好地提取出更多的有用特征。浅层次特征能使图像的原始结构信息得到最大程度的保存,而更深层次的信息则含有更多的抽象结构,二者的结合有助于在最终的卷积信道中得到有效地还原物体的空间维度和结构细节,从而改善分割的准确度。
S15:将待分割测试视杯视盘分割图传输分割模型中进行分割,获得视杯视盘分割结果。
2.根据权利要求1所述的基于多尺度特征融合与空间通道注意力机制的视杯视盘分割方法,其特征在于,所述S11包括:
S21:首先对原始图像进行图像灰度化,将三通道图像(彩色图)转化为单通道图像(灰度图),绿通道图片中视杯视盘与图像背景的对比度更大,噪声更少,所以使用绿色通道的数据作为输入数据。
S22:其次得到灰度化后的图像,我们采用限制对比度自适应直方图均衡化(CLAHE)的方法对得到的灰度图进行对比度增强,增加视杯视盘和背景血管的区分度,该方法还可以抑制部分的背景噪声,增强局部对比度凸显视杯视盘结构;
S23:利用非线性Gamma变换来调整输入眼底图像的光照强度,并对强度值进行非线性运算,使得输入和输出图像的强度值构成指数关系:主要目的是增强图像中较暗的部分,同时保证较亮的部分也不受影响,它可以进一步增大图像的对比度,提高网络分割能力和模型泛化能力。此外,Gamma变换还可以减少噪声因素的干扰。
3.根据权利要求1所述的基于空间通道注意力机制与多尺度特征融合视杯视盘分割方法,其特征在于,所述S12包括:
S31:对原始图像进行数据增强,采用了多种刚性变换和弹性变换,包括:缩放,旋转,水平翻转和垂直翻转、以及B样条弹性形变。为了降低过拟合的影响防止一些局部视盘边缘区域的像素出现偏差,本文对所用数据集进行了随机裁剪工作,在裁剪的时候,为了方便深度网络模型的特征提取,统一设定裁剪大小是512×512dpi。
4.根据权利要求1所述的基于多尺度特征融合与空间通道注意力机制的视杯视盘分割方法,其特征在于,所述S13包括:
S41:网络搭建
基于传统的U-Net网络进行改进的Fusion-ECA-U-Net(FE-U-Net)是一个端到端的多标签深度神经网络。在编码过程中加入多尺度特征融合模块,将多尺度特征融合模块添加到网络的第一层和第二层中进行特征融合,减少特征提取过程中的信息丢失并且将低分辨率特征与高分辨率特征融合,提取更多尺度感受野下的特征保留大量细节信息。首先,通过反卷积将低分辨率特征映射恢复到高分辨率大小,然后添加到高分辨率特征映射中,如公式(4.1)所示。
然后,将集成的特征映射输入BottleNeck模块中,以提高特征提取的能力,避免梯度消失。解码器包含具有通道和空间注意力机制的ECA模块。ECA模块将SE中使用全连接层FC学习通道注意信息,改为1*1卷积学习通道注意信息。使用1*1卷积捕获不同通道之间的信息,避免在学习通道注意力信息时,通道维度减缩。使用一种不降维的局部跨通道交互策略,有效避免了降维对于通道注意力学习效果的影响。对输入特征图进行空间特征压缩;实现在空间维度,使用全局平均池化GAP,得到1*1*C的特征图对压缩后的特征图,进行通道特征学习,通过1*1卷积,学习不同通道之间的重要性,最后与通道注意力结合,将通道注意力的特征图1*1*C、原始输入特征图H*W*C,进行逐通道乘,最终输出具有通道注意力的特征图。从而在一个迭代中,能够求出算法的解,以保持U-Net的端对端特性。同时,得到更细致的视杯视盘分割边界。在此基础上,通过跳跃式连接,可以在同一尺度上进行不同层次的语义信息的融合,从而使编码器能够更好地提取出更多的有用特征。浅层次特征能使图像的原始结构信息得到最大程度的保存,而更深层次的信息则含有更多的抽象结构,二者的结合有助于在最终的卷积信道中得到有效地还原物体的空间维度和结构细节,从而改善分割的准确度。
S42:网络模型数据训练
根据S41搭建的网络,选取预处理与数据增强后的数据集在分割网络上进行训练,利用网络分割结果与标注结果之间的损失对比网络学习进行指导,获得最佳的视杯视盘分割图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310432609.5A CN116503422A (zh) | 2023-04-21 | 2023-04-21 | 一种基于注意力机制与多尺度特征融合的视杯视盘分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310432609.5A CN116503422A (zh) | 2023-04-21 | 2023-04-21 | 一种基于注意力机制与多尺度特征融合的视杯视盘分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503422A true CN116503422A (zh) | 2023-07-28 |
Family
ID=87321151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310432609.5A Pending CN116503422A (zh) | 2023-04-21 | 2023-04-21 | 一种基于注意力机制与多尺度特征融合的视杯视盘分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503422A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117764985A (zh) * | 2024-02-01 | 2024-03-26 | 江西师范大学 | 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统 |
CN118072378A (zh) * | 2024-03-11 | 2024-05-24 | 珠海全一科技有限公司 | 一种基于sam基础模型的动态决策图像分割方法 |
CN118135613A (zh) * | 2024-05-08 | 2024-06-04 | 江西中医药大学 | 一种基于混合深度神经网络的舌象图像分割方法及系统 |
CN118229682A (zh) * | 2024-05-23 | 2024-06-21 | 长春理工大学 | 基于深度学习的眼底图像视杯视盘分割方法及其系统 |
CN118470330A (zh) * | 2024-07-11 | 2024-08-09 | 临沂大学 | 基于Transformer与CNN的视盘和视杯分割方法 |
-
2023
- 2023-04-21 CN CN202310432609.5A patent/CN116503422A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117764985A (zh) * | 2024-02-01 | 2024-03-26 | 江西师范大学 | 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统 |
CN117764985B (zh) * | 2024-02-01 | 2024-05-14 | 江西师范大学 | 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统 |
CN118072378A (zh) * | 2024-03-11 | 2024-05-24 | 珠海全一科技有限公司 | 一种基于sam基础模型的动态决策图像分割方法 |
CN118135613A (zh) * | 2024-05-08 | 2024-06-04 | 江西中医药大学 | 一种基于混合深度神经网络的舌象图像分割方法及系统 |
CN118229682A (zh) * | 2024-05-23 | 2024-06-21 | 长春理工大学 | 基于深度学习的眼底图像视杯视盘分割方法及其系统 |
CN118229682B (zh) * | 2024-05-23 | 2024-09-27 | 长春理工大学 | 基于深度学习的眼底图像视杯视盘分割方法及其系统 |
CN118470330A (zh) * | 2024-07-11 | 2024-08-09 | 临沂大学 | 基于Transformer与CNN的视盘和视杯分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116503422A (zh) | 一种基于注意力机制与多尺度特征融合的视杯视盘分割方法 | |
CN109448006B (zh) | 一种注意力机制u型密集连接视网膜血管分割方法 | |
CN110097554B (zh) | 基于密集卷积和深度可分离卷积的视网膜血管分割方法 | |
CN110276356A (zh) | 基于r-cnn的眼底图像微动脉瘤识别方法 | |
Bian et al. | Optic disc and optic cup segmentation based on anatomy guided cascade network | |
CN112132817A (zh) | 一种混合注意力机制的眼底图像视网膜血管分割方法 | |
CN108764342B (zh) | 一种对于眼底图中视盘和视杯的语义分割方法 | |
CN112258488A (zh) | 一种医疗影像病灶分割方法 | |
CN109816666B (zh) | 对称全卷积神经网络模型构建方法、眼底图像血管分割方法、装置、计算机设备及存储介质 | |
CN111815563B (zh) | 一种U-Net与区域增长PCNN相结合的视网膜视盘分割方法 | |
CN111242949B (zh) | 基于全卷积神经网络多尺度特征的眼底图像血管分割方法 | |
CN114359104B (zh) | 一种基于分级生成的白内障眼底图像增强方法 | |
CN114881962A (zh) | 一种基于改进U-Net网络的视网膜图像血管分割方法 | |
CN113870270B (zh) | 一种统一框架下的眼底影像视杯、视盘分割方法 | |
CN115375711A (zh) | 基于多尺度融合的全局上下文关注网络的图像分割方法 | |
CN111223110A (zh) | 一种显微图像增强方法、装置及计算机设备 | |
CN114648806A (zh) | 一种多机制自适应的眼底图像分割方法 | |
CN116883429A (zh) | 一种基于并行残差注意力的肝脏及肝脏肿瘤分割方法 | |
CN115409764A (zh) | 一种基于域自适应的多模态眼底血管分割方法及装置 | |
CN112508873A (zh) | 基于迁移学习的颅内血管模拟三维狭窄化模型的建立方法 | |
CN117522893A (zh) | 一种基于水平集的分段区域原型校正的眼底血管分割方法 | |
CN114418987A (zh) | 一种多阶段特征融合的视网膜血管分割方法及系统 | |
CN117593317A (zh) | 基于多尺度膨胀卷积残差网络的视网膜血管图像分割方法 | |
CN113362346B (zh) | 基于机器学习双区域轮廓演化模型的视盘和视杯分割方法 | |
Hu et al. | Retinal vessel segmentation based on recurrent convolutional skip connection U-Net |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |