CN117876242A - 眼底图像增强方法、装置、设备及可读存储介质 - Google Patents
眼底图像增强方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117876242A CN117876242A CN202410274855.7A CN202410274855A CN117876242A CN 117876242 A CN117876242 A CN 117876242A CN 202410274855 A CN202410274855 A CN 202410274855A CN 117876242 A CN117876242 A CN 117876242A
- Authority
- CN
- China
- Prior art keywords
- image
- fundus image
- enhanced
- fundus
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000004927 fusion Effects 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims description 36
- 230000011218 segmentation Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 23
- 210000001525 retina Anatomy 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 15
- 238000004821 distillation Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 17
- 210000004204 blood vessel Anatomy 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 3
- 230000002207 retinal effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000002177 Cataract Diseases 0.000 description 2
- 206010012689 Diabetic retinopathy Diseases 0.000 description 2
- 206010064930 age-related macular degeneration Diseases 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 208000002780 macular degeneration Diseases 0.000 description 2
- 230000002911 mydriatic effect Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 208000010412 Glaucoma Diseases 0.000 description 1
- 208000022873 Ocular disease Diseases 0.000 description 1
- JAZBEHYOTPTENJ-JLNKQSITSA-N all-cis-5,8,11,14,17-icosapentaenoic acid Chemical compound CC\C=C/C\C=C/C\C=C/C\C=C/C\C=C/CCCC(O)=O JAZBEHYOTPTENJ-JLNKQSITSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000594 effect on fusion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Eye Examination Apparatus (AREA)
- Image Processing (AREA)
Abstract
本申请涉及图像处理领域,具体公开了一种眼底图像增强方法、装置、计算机设备及存储介质。本申请基于标准眼底图像的眼底结构特征图作为编码器提取特征图像的引导信息,从标准眼底图像中提取和继承标准高质量图像的关键结构信息,并通过注意力融合模块,提供对低质量眼底图像的全局上下文的整体以及局部细节的理解,使得编码器有效地处理待处理眼底图像,在保持计算效率的同时,显著提升了图像的表达能力和增强效果。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种眼底图像增强方法、装置、计算机设备及存储介质。
背景技术
由于眼底摄影图像在安全性和成本方面的优势,已成为诊断和监测多种眼部疾病(如糖尿病性视网膜病变(DR)、青光眼和年龄相关性黄斑变性(AMD))的标准临床检验方法。然而,由于技术限制或白内障病变等因素的干扰,眼底图像的质量可能受损,由此增加了临床观察的不确定性。据筛查研究显示,超过10%的散瞳眼底图像和20.8%的非散瞳眼底图像质量,使得眼科医生无法正常解读。在退化的眼底图像中,观察眼底细节非常困难。图像质量的下降,不仅妨碍了眼科医生进行准确诊断,也影响了智能眼底评估系统的效果。
目前眼底图像质量增强领域主要存在的问题有:
一、自然图像增强方法侧重于在人类视觉上产生令人满意的结果,而非在重建的图像中保留有价值的临床信息。而作为重要的临床诊断证据,增强眼底图像应在保留视网膜结构的同时减少不正确地合成内容。目前大部分提取结构信息都是用已经训练好的血管提取网络,比如AG-Net、Res-Net等,但这些网络都是利用高质量眼底图像或者采用人工退化的低质量图像来训练的,在真实的低质量眼底图像上分割效果并不理想。
二、大多数的眼底图像增强网络都采用U型深度卷积网络(U-Net),在捕获非局部自相似性和长程依赖性方面存在局限性,虽然已经有基于Transformer的方法应用在眼底图像恢复领域,且达到了比较好的效果,但可能在不同层次特征间的融合和通道间重要特征的强调上不够有效,导致一些有用信息未被充分利用。
因此,如何在提供有效结合眼底结构信息和注意力信息融合的眼底图像增强方法,成为亟待解决的重要问题。
发明内容
本申请提供了一种眼底图像增强方法、装置、计算机设备及存储介质,以提供有效结合眼底结构信息和注意力信息融合的眼底图像增强方法。
第一方面,本申请提供了一种眼底图像增强方法,包括:
基于结构提取模块提取标准眼底图像的眼底结构特征图,作为标准特征图;
基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像;
基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像;
基于所述待增强眼底图像以及所述残差图像,生成所述待增强眼底图像增强后的眼底图像。
进一步地,所述基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像,包括:
基于输入映射层,提取所述待增强眼底图像的浅层特征图像,其中,所述输入映射层由卷积层和激活函数组成;
基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像,其中,所述编码器的各个阶段由下采样层以及所述注意力融合模块组成。
进一步地,所述基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像之前,包括:
采用一个步幅为2的4*4卷积层作为所述下采样层;
基于所述下采样层以及注意力融合模块,生成所述编码器的四个阶段,并将所述标准特征图作为引导信息,加入所述编码器的四个阶段。
进一步地,所述基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像,包括:
基于所述编码器中的窗口注意力模块,对所述浅层特征图像进行最大池化操作,获得第一池化特征图像;
基于所述编码器中的通道注意力模块,对所述浅层特征图像进行全局平均池化操作,获得第二池化特征图像;
基于编码器中的两个多层感知器网络,对所述第一池化特征图像以及所述第二池化特征图像进行特征变换;
基于变换前后的第一池化特征图像、变换前后的第二池化特征图像以及所述浅层特征图像,得到所述待增强特征图像。
进一步地,所述基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像,包括:
基于双线性差值和卷积层,组成上采样层;
基于所述多尺度注意力融合模块和一个上采样层,生成所述解码器的四个阶段,通过所述解码器的四个阶段,对所述待增强特征图像进行解码,并通过输出映射层输出所述残差图像。
进一步地,所述基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码之前,还包括:
基于多尺度结构损失函数,计算所述标准特征图分别与所述解码器的四个阶段输出的特征图的结构损失值;
在所述解码器的四个阶段对应的结构损失值均小于预设值时,完成所述编码器的网络训练。
进一步地,所述基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像之前,还包括:
基于预设教师分割网络FR-Unet,对标准眼底图像进行分割,获得所述标准眼底图像对应的标准视网膜结构的表示图像;
基于当前学生分割网络Unet,对所述标准眼底图像对应的低质量眼底图像进行分割,获得所述低质量眼底图像对应的当前视网膜结构的表示图像;
基于均方误差损失函数、所述标准视网膜结构的表示图像和当前视网膜结构的表示图像,计算所述当前学生分割网络对应的蒸馏损失值;
在所述蒸馏损失值小于预设值时,停止所述当前学生分割网络的训练,并基于所述当前学生分割网络生成所述编码器。
第二方面,本申请还提供了一种眼底图像增强装置,包括:
标准特征提取模块,用于基于结构提取模块提取标准眼底图像的眼底结构特征图,作为标准特征图;
待处理特征提取模块,用于基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像;
残差图像解码模块,用于基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像;
眼底图像增强模块,用于基于所述待增强眼底图像以及所述残差图像,生成所述待增强眼底图像增强后的眼底图像。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的眼底图像增强方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的眼底图像增强方法。
本申请公开了一种眼底图像增强方法、装置、计算机设备及存储介质,所述基于结构提取模块提取标准眼底图像的眼底结构特征图,作为标准特征图;基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像;基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像;基于所述待增强眼底图像以及所述残差图像,生成所述待增强眼底图像增强后的眼底图像。通过上述方式,该方法基于标准眼底图像的眼底结构特征图作为编码器提取特征图像的引导信息,从标准眼底图像中提取和继承标准高质量图像的关键结构信息,并通过注意力融合模块,提供对低质量眼底图像的全局上下文的整体以及局部细节的理解,使得编码器有效地处理待处理眼底图像,在保持计算效率的同时,显著提升了图像的表达能力和增强效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的实施例提供的一种眼底图像增强方法的第一实施例示意流程图;
图2是本申请的实施例提供的一种提取待增强眼底图像的蒸馏模型示意图;
图3是本申请的实施例提供的增强网络对待增强眼底图像进行增强的过程示意图;
图4是本申请的实施例提供的一种教师网络示意图;
图5是本申请的实施例提供的一种学生网络示意图;
图6是本申请的实施例提供的一种眼底图像示意图;
图7是本申请增强后的眼底图像与历史增强方法增强后的眼底图像的对比示意图;
图8是本申请的实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
目前眼底图像质量增强领域主要存在以下问题:一、作为重要的临床诊断证据,增强后眼底图像应当在保留视网膜结构的同时减少不正确地合成内容。由此才能在增强重建后的图像中保留有价值的临床信息。然而,目前眼底图像增强方法提取的结构信息都是使用已经训练好的血管提取网络,比如AG-Net、Res-Net等。上述网络都是利用高质量眼底图像或者采用人工退化的低质量图像来训练的。因此,在真实的低质量眼底图像上的分割效果并不理想。二、目前的眼底图像增强网络均采用U型深度卷积网络(U-Net),因此在捕获非局部自相似性和长程依赖性方面存在局限性。基于Transformer的图像增强方法应用在眼底图像恢复领域,在不同层次特征间的融合和通道间重要特征的强调上效果较差,由此导致一些有用信息未被充分利用。
本申请的实施例为了解决上述问题,提供了一种眼底图像增强方法、装置、计算机设备及存储介质。其中,该眼底图像增强方法可以应用于服务器中。基于标准眼底图像的眼底结构特征图作为编码器提取特征图像的引导信息,从标准眼底图像中提取和继承标准高质量图像的关键结构信息,并通过注意力融合模块,提供对低质量眼底图像的全局上下文的整体以及局部细节的理解,使得编码器有效地处理待处理眼底图像,在保持计算效率的同时,显著提升了图像的表达能力和增强效果。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请的实施例提供的一种眼底图像增强方法的示意流程图。
如图1所示,该眼底图像增强方法具体包括步骤S101至步骤S104。
S101、基于结构提取模块提取标准眼底图像的眼底结构特征图,作为标准特征图;
S102、基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像;
S103、基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像;
S104、基于所述待增强眼底图像以及所述残差图像,生成所述待增强眼底图像增强后的眼底图像。
本实施例提供一种能够有效结合眼底结构信息和注意力信息融合的眼底图像增强方法。本实施例中,基于增强网络实现低质量眼底图像(即待增强眼底图像)的增强。其中,该增强网络基于U型架构,该U型架构由编码器、解码器和结构提取模块组成。为了能够更有效地处理长距离依赖问题,采用Transformer模型作为编码器和解码器,同时在编码器以及解码器中采用窗口自注意力和通道自注意力融合的方式,捕捉和分析待增强眼底图像(即低质量眼底图像)中各个区域之间的复杂关系,从而进一步提高网络恢复能力。
可以理解的是,依次获取至少一张低质量眼底图像作为待增强眼底图像。上述低质量眼底图像为受到拍照技术或白内障病变等因素干扰的图像(如视网膜结构不清晰的图像)或携带低质量标签的眼底图像。
具体地,为了解决低质量眼底图像结构信息网络提取效果差的问题,本实施例使用了蒸馏网络。如图2所示,本实施例中的蒸馏网络即通过教师网络指导学生网络对低质量眼底图像的结构进行有效提取。
最后进一步结合多尺度结构损失函数,使增强网络能够更好地恢复低质量眼底图像的结构信息,减少低质量眼底图像恢复过程中的损失,从而使得增强网络恢复出更加真实的眼底图像。
可以理解的是,待增强的低质量眼底图像与增强后的高质量眼底图像的语义结构一致,且拥有相同的图像内容和图像结构;待增强的低质量眼底图像的生成区域与其他区域风格一致且画面和谐。
预先在对增强网络进行训练测试时,使用眼底图像增强的领域的各种指标(如峰值信噪比(PSNR)和结构相似性(SSIM)),对增强后的低质量眼底图像与对应的高质量图像进行评估。直至增强后的低质量眼底图像与对应的高质量图像的各种指标的差距小于预设值时,完成增强网络的训练。
在一实施例中,基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像,包括:
基于输入映射层,提取所述待增强眼底图像的浅层特征图像,其中,所述输入映射层由卷积层和激活函数组成;
基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像,其中,所述编码器的各个阶段由下采样层以及所述注意力融合模块组成。
在一实施例中,所述基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像之前,包括:
采用一个步幅为2的4*4卷积层作为所述下采样层;
基于所述下采样层以及注意力融合模块,生成所述编码器的四个阶段,并将所述标准特征图作为引导信息,加入所述编码器的四个阶段。
具体地,如图3所示,增强网络以退化的低质量眼底图像H×W×3作为输入。首先通过一个由卷积层(Conv)和激活函数(LeakyReLU)组成的输入映射层来提取低质量眼底图像的浅层特征,记为。其次,利用编码器的每个阶段对浅层特征进一步进行深度特征提取(即通过编码器对待增强眼底图像进行编码),得到所述待增强眼底图像对应的待增强特征图像。其中,编码器的每个阶段由注意力融合模块和一个下采样层组成。采用一个具有步幅为2的4×4卷积层作为下采样层,以通过该下采样层缩小深度特征图的空间尺寸,从而使特征图的通道尺寸翻倍。编码器中第i个阶段的特征记为:
,
其中,表示编码器第/>阶段的特征图,i = 0、1、2、3,即分别表示表示这四个阶段。为了加强对眼底图像的血管细节恢复,将结构信息提取模块提取到的标准特征图,作为引导信息,加入到编码器的每个阶段,即:
其中,表示标准特征图;即通过结构提取模块对高质量眼底图像(即标准眼底图像)进行特征提取,即可得到所述标准特征图。
通过一个对称解码器对深度特征图进行解码。其中,解码器也包含四个阶段。解码器的每个阶段也由多尺度注意力融合模块和一个上采样层组成。对应的,解码器中第i个阶段的特征图记为:
其中,上采样层由双线性插值和卷积层组成。然后通过解码器和输出映射得到残差图像,最后通过原低质量眼底图像(即待增强特征图像)以及该残差图像即可得到增强后的眼底图像,即
本实施例中提供一种眼底图像增强方法,所述基于结构提取模块提取标准眼底图像的眼底结构特征图,作为标准特征图;基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像;基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像;基于所述待增强眼底图像以及所述残差图像,生成所述待增强眼底图像增强后的眼底图像。通过上述方式,该方法基于标准眼底图像的眼底结构特征图作为编码器提取特征图像的引导信息,从标准眼底图像中提取和继承标准高质量图像的关键结构信息,并通过注意力融合模块,提供对低质量眼底图像的全局上下文的整体以及局部细节的理解,使得编码器有效地处理待处理眼底图像,在保持计算效率的同时,显著提升了图像的表达能力和增强效果。
在一实施例中,所述基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像之前,还包括:
基于预设教师分割网络FR-Unet,对标准眼底图像进行分割,获得所述标准眼底图像对应的标准视网膜结构的表示图像;
基于当前学生分割网络Unet,对所述标准眼底图像对应的低质量眼底图像进行分割,获得所述低质量眼底图像对应的当前视网膜结构的表示图像;
基于均方误差损失函数、所述标准视网膜结构的表示图像和当前视网膜结构的表示图像,计算所述当前学生分割网络对应的蒸馏损失值;
在所述蒸馏损失值小于预设值时,停止所述当前学生分割网络的训练,并基于所述当前学生分割网络生成所述编码器。
具体地,请参阅图4和图5,首先利用一种高效的眼底图像结构分割网络FR-Unet(即图4所示的教师网络),对高质量眼底图像进行精确分割,以获得高质量眼底图像的视网膜结构的详细表示。然后,将该高质量图像的分割结果作为知源,用于对应的低质量眼底图像的学生分割网络UNet(即图5所示的学生网络)进行知识蒸馏。在知识蒸馏过程中,FR-Unet分割的高质量图像结果作为指导信息,辅助低质量图像的U型分割网络学习进行更加准确的结构表示。该过程中允许学生网络模仿高质量图像的分割表现,从而在不直接访问高质量图像的情况下,提升对低质量图像的分割准确性。通过上述方式,U型网络能够从高质量图像中提取和继承关键结构信息,最终生成信息如图6所示的更丰富的低质量眼底图像的结构图,这种方法通过结合高质量眼底图像的先进分割技术和知识蒸馏策略,显著提高了低质量眼底图像的结构分割性能。其中,(a)第一行是人工退化眼底图,第二行是真实的低质量眼底图;(b)是预先训练好的ResNet网络分割的结构图;(c)是通过我们的学生网络分割出的结果图;(d)是对应的高质量的分割基准图。
具体地,本实施例中选择使用均方误差损失(Mean Squared Error Loss)作为蒸馏损失值,表示为:
其中,分别是教师网络的输出值和学生网络的输出值。
在一实施例中,所述基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像,包括:
基于所述编码器中的窗口注意力模块,对所述浅层特征图像进行最大池化操作,获得第一池化特征图像;
基于所述编码器中的通道注意力模块,对所述浅层特征图像进行全局平均池化操作,获得第二池化特征图像;
基于编码器中的两个多层感知器网络,对所述第一池化特征图像以及所述第二池化特征图像进行特征变换;
基于变换前后的第一池化特征图像、变换前后的第二池化特征图像以及所述浅层特征图像,得到所述待增强特征图像。
具体地,在设计用于眼底图像增强的网络时,本实施例采纳了编码器-解码器架构,其中每个编码器和解码器层级均集成了注意力信息融合模块。该模块融合了窗口注意力和通道注意力机制,提供对全局上下文的整体以及对局部细节的理解,提升网络在特征提取和表示上的能力。
传统的全局Transformer结构在处理空间尺寸较大的输入特征()时,其计算成本随空间尺寸的平方增加而显著上升。本实施例采用基于窗口的多头自注意,通过将注意力限制在局部窗口内,显著降低了计算复杂度,同时提供对局部细节的强化关注,其过程为:
其中,表示一个/>的输入特征映射。/>表示图层的归一化。/>和/>分别表示/>和/>的输出特征。
在通道注意力模块中,首先对输入特征图进行全局平均池化和最大池化操作,以获得全局的特征描述。通过两种池化策略分别捕获不同统计属性的特征,提供了全局上下文信息(即特征图中的像素点信息)。然后,通过两个独立的多层感知器(MLP)网络,对池化后的特征进行进一步的特征变换。MLP网络的每个输出都通过一个Sigmoid激活函数,生成不同的注意力权重。最后,这些权重在通道维度上与原始特征图相乘,生成最终的通道注意力图。这一图显式地对每个通道的特征响应进行调整,从而强化了对眼底图像中关键细节的表示,其过程为:
其中,是压缩后的通道i的特征,/>是对该通道所有空间位置的特征的平均。/>是Squeeze输出的向量,/>是sigmoid 函数,/>是 ReLU 函数,/>是每个通道的权重,/>是经过通道注意力调整后的特征图。
通过上述方式,通过这种综合窗口注意力和通道注意力的方法,我们的网络能够有效地处理高分辨率的眼底图像,并在保持计算效率的同时,显著提升了特征的表达能力和增强效果。
在一实施例中,所述基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像,包括:
基于双线性差值和卷积层,组成上采样层;
基于所述多尺度注意力融合模块和一个上采样层,生成所述解码器的四个阶段,通过所述解码器的四个阶段,对所述待增强特征图像进行解码,并通过输出映射层输出所述残差图像。
在一实施例中,所述基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码之前,还包括:
基于多尺度结构损失函数,计算所述标准特征图分别与所述解码器的四个阶段输出的特征图的结构损失值;
在所述解码器的四个阶段对应的结构损失值均小于预设值时,完成所述编码器的网络训练。
具体地,加入多尺度结构损失函数到模型的解码器部分,可显著增强图像重建的质量。多尺度结构损失函数通过在不同尺度上评估图像的结构信息,即通过多个损失函数评估每层解码器的输出图像的结构图与对应的真实的眼底图像结构图之间的损失。有效地指导了解码过程,确保恢复出的眼底图像在细节上更加精确和丰富。其过程可以表示为:
其中,= 0、1、2、3表示解码器每一层,/>代表解码器每层输出的特征图通过映射和分割得到的结构图,/>代表高质量眼底分割的结构图。
其中,损失函数具体包括:
1、Charbonnier损失:
其中,是通过增强网络恢复的眼底图像,/>是真实的高质量眼底图像。
2、对抗损失:
3、感知损失:
其中,在Eye-Q数据集上训练的感知网络能够提取不同质量眼底图像之间的高级特征差异,为预先训练好的感知网络的特征提取函数。
通过上述多尺度结构损失函数的引入,提高了模型对眼底图像中不同大小结构的敏感度,使得模型能够更加精细地处理图像中的细节变化。通过上述方式,不仅提高了图像的视觉质量,避免了生成错误的细小血管图,也为医生提供了更为准确和详细的图像信息,从而有助于提高诊断的准确率和效率。
由此,本实施例中提供一种基于结构信息引导和注意力信息融合的眼底图像修复方法。与目前眼底图像修复任务最先进的模型相比,本实施例中选择基于U型网络的Transformer框架作为基线。此外,本实施例中复现了四种现有的眼底图像修复方法:CLAHE、Cofe-Net、RFormer和GFE-Net。其中CLAHE直接使用直方图均衡化来对眼底图像加强;Cofe-Net第一个使用完整的退化模型来生成足够的训练图像对;RFormer建立了第一个真实的临床眼底图像恢复基准,同时是第一个将Transformer框架用在眼底修复任务上;GFE-Net通过设计一个无缝的SSRL架构,将基于频率自监督的表示学习与下行图像增强相结合,可以在不依赖监督或额外数据的情况下,稳健地纠正未知的眼底图像。
具体可参考下表展示了所有测试模型的详细对比,以及图7展示了眼底图像修复的样例。
其中,图7所示的图像为本实施例提供的眼底图像增强方法与历史增强方法的对比示意图;(a)为低质量眼底图像;(b)为CLAHE; (c) 为Cofe-Net; (d)为RFormer;(e)为GFE-Net;(f)为本实施例提出眼底图像增强方法;(g)为真实眼底图。左右下角红框和绿框为所选代表性区域的放大显示。
进一步地,本申请的实施例提供一种眼底图像增强装置,该眼底图像增强装置用于执行前述的眼底图像增强方法。其中,该眼底图像增强装置可以配置于服务器。
具体地,该眼底图像增强装置,包括:
标准特征提取模块,用于基于结构提取模块提取标准眼底图像的眼底结构特征图,作为标准特征图;
待处理特征提取模块,用于基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像;
残差图像解码模块,用于基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像;
眼底图像增强模块,用于基于所述待增强眼底图像以及所述残差图像,生成所述待增强眼底图像增强后的眼底图像。
进一步地,所述待处理特征提取模块,包括:
浅层特征提取单元,用于基于输入映射层,提取所述待增强眼底图像的浅层特征图像,其中,所述输入映射层由卷积层和激活函数组成;
深度特征提取单元,用于基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像,其中,所述编码器的各个阶段由下采样层以及所述注意力融合模块组成。
进一步地,所述待处理特征提取模块还包括:
下采样层确定单元,用于采用一个步幅为2的4*4卷积层作为所述下采样层;
编码器生成单元,用于基于所述下采样层以及注意力融合模块,生成所述编码器的四个阶段,并将所述标准特征图作为引导信息,加入所述编码器的四个阶段。
进一步地,所述深度特征提取单元还用于:
基于所述编码器中的窗口注意力模块,对所述浅层特征图像进行最大池化操作,获得第一池化特征图像;
基于所述编码器中的通道注意力模块,对所述浅层特征图像进行全局平均池化操作,获得第二池化特征图像;
基于编码器中的两个多层感知器网络,对所述第一池化特征图像以及所述第二池化特征图像进行特征变换;
基于变换前后的第一池化特征图像、变换前后的第二池化特征图像以及所述浅层特征图像,得到所述待增强特征图像。
进一步地,所述眼底图像增强模块包括:
上采样层确定单元,用于基于双线性差值和卷积层,组成上采样层;
残差图像生成单元,用于基于所述多尺度注意力融合模块和一个上采样层,生成所述解码器的四个阶段,通过所述解码器的四个阶段,对所述待增强特征图像进行解码,并通过输出映射层输出所述残差图像。
进一步地,所述该眼底图像增强装置还包括:
结构损失值计算模块,用于基于多尺度结构损失函数,计算所述标准特征图分别与所述解码器的四个阶段输出的特征图的结构损失值;
编码器训练模块,用于在所述解码器的四个阶段对应的结构损失值均小于预设值时,完成所述编码器的网络训练。
进一步地,所述该眼底图像增强装置还包括:
标准结构图像获取模块,用于基于预设教师分割网络FR-Unet,对标准眼底图像进行分割,获得所述标准眼底图像对应的标准视网膜结构的表示图像;
蒸馏网络训练模块,用于基于当前学生分割网络Unet,对所述标准眼底图像对应的低质量眼底图像进行分割,获得所述低质量眼底图像对应的当前视网膜结构的表示图像;
蒸馏损失计算模块,用于基于均方误差损失函数、所述标准视网膜结构的表示图像和当前视网膜结构的表示图像,计算所述当前学生分割网络对应的蒸馏损失值;
编码器生成模块,用于在所述蒸馏损失值小于预设值时,停止所述当前学生分割网络的训练,并基于所述当前学生分割网络生成所述编码器。
需要说明的是,所述领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图8,图8是本申请的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。
参阅图8,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种眼底图像增强方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种眼底图像增强方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元 (Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在所述处理器用于运行存储在存储器中的计算机程序,以实现如本申请实施例提供的任一项眼底图像增强方法。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项眼底图像增强方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种眼底图像增强方法,其特征在于,包括:
基于结构提取模块提取标准眼底图像的眼底结构特征图,作为标准特征图;
基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像;
基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像;
基于所述待增强眼底图像以及所述残差图像,生成所述待增强眼底图像增强后的眼底图像。
2.根据权利要求1所述的眼底图像增强方法,其特征在于,所述基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像,包括:
基于输入映射层,提取所述待增强眼底图像的浅层特征图像,其中,所述输入映射层由卷积层和激活函数组成;
基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像,其中,所述编码器的各个阶段由下采样层以及所述注意力融合模块组成。
3.根据权利要求2所述的眼底图像增强方法,其特征在于,所述基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像之前,包括:
采用一个步幅为2的4*4卷积层作为所述下采样层;
基于所述下采样层以及注意力融合模块,生成所述编码器的四个阶段,并将所述标准特征图作为引导信息,加入所述编码器的四个阶段。
4.根据权利要求3所述的眼底图像增强方法,其特征在于,所述基于所述标准特征图以及所述编码器的各个阶段,对所述浅层特征图像进行深度特征提取,得到所述待增强特征图像,包括:
基于所述编码器中的窗口注意力模块,对所述浅层特征图像进行最大池化操作,获得第一池化特征图像;
基于所述编码器中的通道注意力模块,对所述浅层特征图像进行全局平均池化操作,获得第二池化特征图像;
基于编码器中的两个多层感知器网络,对所述第一池化特征图像以及所述第二池化特征图像进行特征变换;
基于变换前后的第一池化特征图像、变换前后的第二池化特征图像以及所述浅层特征图像,得到所述待增强特征图像。
5.根据权利要求3所述的眼底图像增强方法,其特征在于,所述基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像,包括:
基于双线性差值和卷积层,组成上采样层;
基于所述多尺度注意力融合模块和一个上采样层,生成所述解码器的四个阶段,通过所述解码器的四个阶段,对所述待增强特征图像进行解码,并通过输出映射层输出所述残差图像。
6.根据权利要求1所述的眼底图像增强方法,其特征在于,所述基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码之前,还包括:
基于多尺度结构损失函数,计算所述标准特征图分别与所述解码器的四个阶段输出的特征图的结构损失值;
在所述解码器的四个阶段对应的结构损失值均小于预设值时,完成所述编码器的网络训练。
7.根据权利要求1-6任一项所述的眼底图像增强方法,其特征在于,所述基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像之前,还包括:
基于预设教师分割网络FR-Unet,对标准眼底图像进行分割,获得所述标准眼底图像对应的标准视网膜结构的表示图像;
基于当前学生分割网络Unet,对所述标准眼底图像对应的低质量眼底图像进行分割,获得所述低质量眼底图像对应的当前视网膜结构的表示图像;
基于均方误差损失函数、所述标准视网膜结构的表示图像和当前视网膜结构的表示图像,计算所述当前学生分割网络对应的蒸馏损失值;
在所述蒸馏损失值小于预设值时,停止所述当前学生分割网络的训练,并基于所述当前学生分割网络生成所述编码器。
8.一种眼底图像增强装置,其特征在于,包括:
标准特征提取模块,用于基于结构提取模块提取标准眼底图像的眼底结构特征图,作为标准特征图;
待处理特征提取模块,用于基于编码器中的注意力融合模块以及所述标准特征图,提取待增强眼底图像的待增强特征图像;
残差图像解码模块,用于基于解码器中的多尺度注意力融合模块,对所述待增强特征图像进行解码,获得所述待增强眼底图像对应的残差图像;
眼底图像增强模块,用于基于所述待增强眼底图像以及所述残差图像,生成所述待增强眼底图像增强后的眼底图像。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的眼底图像增强方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的眼底图像增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410274855.7A CN117876242B (zh) | 2024-03-11 | 2024-03-11 | 眼底图像增强方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410274855.7A CN117876242B (zh) | 2024-03-11 | 2024-03-11 | 眼底图像增强方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117876242A true CN117876242A (zh) | 2024-04-12 |
CN117876242B CN117876242B (zh) | 2024-05-28 |
Family
ID=90581594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410274855.7A Active CN117876242B (zh) | 2024-03-11 | 2024-03-11 | 眼底图像增强方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117876242B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118196543A (zh) * | 2024-05-17 | 2024-06-14 | 深圳大学 | 一种应用于医学图像的类别预测方法及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859139A (zh) * | 2019-02-15 | 2019-06-07 | 中南大学 | 彩色眼底图像的血管增强方法 |
CN110264424A (zh) * | 2019-06-20 | 2019-09-20 | 北京理工大学 | 一种基于生成对抗网络的模糊视网膜眼底图像增强方法 |
WO2020147245A1 (zh) * | 2019-01-18 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于眼底彩照图像的图像优化方法及相关设备 |
WO2021164731A1 (zh) * | 2020-02-19 | 2021-08-26 | 华为技术有限公司 | 图像增强方法以及图像增强装置 |
CN113781324A (zh) * | 2021-08-06 | 2021-12-10 | 天津大学 | 一种老照片修复方法 |
CN114913083A (zh) * | 2022-04-22 | 2022-08-16 | 大连海事大学 | 一种基于上下文分解特征融合的水下图像增强方法 |
CN114998145A (zh) * | 2022-06-07 | 2022-09-02 | 湖南大学 | 一种基于多尺度和上下文学习网络的低照度图像增强方法 |
CN116362995A (zh) * | 2023-02-15 | 2023-06-30 | 成都品果科技有限公司 | 一种基于标准先验的牙齿图像修复方法和系统 |
CN116385288A (zh) * | 2023-03-20 | 2023-07-04 | 深圳大学 | 深度图像修复方法、装置及可读存储介质 |
-
2024
- 2024-03-11 CN CN202410274855.7A patent/CN117876242B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020147245A1 (zh) * | 2019-01-18 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于眼底彩照图像的图像优化方法及相关设备 |
CN109859139A (zh) * | 2019-02-15 | 2019-06-07 | 中南大学 | 彩色眼底图像的血管增强方法 |
CN110264424A (zh) * | 2019-06-20 | 2019-09-20 | 北京理工大学 | 一种基于生成对抗网络的模糊视网膜眼底图像增强方法 |
WO2021164731A1 (zh) * | 2020-02-19 | 2021-08-26 | 华为技术有限公司 | 图像增强方法以及图像增强装置 |
CN113781324A (zh) * | 2021-08-06 | 2021-12-10 | 天津大学 | 一种老照片修复方法 |
CN114913083A (zh) * | 2022-04-22 | 2022-08-16 | 大连海事大学 | 一种基于上下文分解特征融合的水下图像增强方法 |
CN114998145A (zh) * | 2022-06-07 | 2022-09-02 | 湖南大学 | 一种基于多尺度和上下文学习网络的低照度图像增强方法 |
CN116362995A (zh) * | 2023-02-15 | 2023-06-30 | 成都品果科技有限公司 | 一种基于标准先验的牙齿图像修复方法和系统 |
CN116385288A (zh) * | 2023-03-20 | 2023-07-04 | 深圳大学 | 深度图像修复方法、装置及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
WANJUN ZHANG ET AL.: "A fundus image enhancer based on illumination-guided attention and optic disc perception GAN", 《OPTIK-》, vol. 279, 1 March 2023 (2023-03-01), pages 1 - 14 * |
温阳: "基于视觉先验和深度学习的图像复原方法研究", 《中国博士学位论文全文数据库 (信息科技辑)》, no. 2, 15 February 2023 (2023-02-15), pages 138 - 71 * |
贾佳: "基于深度学习的低光照眼底图像增强", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》, no. 1, 15 January 2023 (2023-01-15), pages 073 - 149 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118196543A (zh) * | 2024-05-17 | 2024-06-14 | 深圳大学 | 一种应用于医学图像的类别预测方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117876242B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117876242B (zh) | 眼底图像增强方法、装置、设备及可读存储介质 | |
CN108764342B (zh) | 一种对于眼底图中视盘和视杯的语义分割方法 | |
CN111275638B (zh) | 基于多通道注意力选择生成对抗网络的人脸修复方法 | |
CN113888412B (zh) | 一种用于糖尿病视网膜病变分类的图像超分辨率重建方法 | |
CN115205300A (zh) | 基于空洞卷积和语义融合的眼底血管图像分割方法与系统 | |
CN111178499B (zh) | 一种基于生成对抗网络改进的医学图像超分辨率方法 | |
CN114219719A (zh) | 基于双重注意力和多尺度特征的cnn医学ct图像去噪方法 | |
CN116363060A (zh) | 一种基于残差u型网络的混合注意力视网膜血管分割方法 | |
CN110610480B (zh) | 基于Attention机制的MCASPP神经网络眼底图像视杯视盘分割模型 | |
CN112806957B (zh) | 一种基于深度学习的圆锥角膜和亚临床圆锥角膜检测系统 | |
CN113724262A (zh) | 视网膜oct图像中的cnv分割方法 | |
CN117934824A (zh) | 一种超声影像的目标区域分割方法、系统及电子设备 | |
CN115587967B (zh) | 一种基于HA-UNet网络的眼底图像视盘检测方法 | |
Zhao et al. | Perception-oriented generative adversarial network for retinal fundus image super-resolution | |
Ameri et al. | Segmentation of Hard Exudates in Retina Fundus Images Using BCDU-Net | |
CN114764766A (zh) | 一种基于FC-VoVNet和WGAN的B超图像去噪方法 | |
CN118229712B (zh) | 基于增强多维特征感知的肝脏肿瘤图像分割系统 | |
CN117726642B (zh) | 一种用于光学相干断层扫描图像的高反射病灶分割方法和装置 | |
CN114821645B (zh) | 融合残差Inception与双向ConvGRU的皮肤病变分割方法 | |
CN116385725B (zh) | 眼底图像视盘视杯分割方法及装置、电子设备 | |
CN117333751A (zh) | 一种医学图像融合方法 | |
Daza et al. | Semantic Segmentation of Kidney Tumor Using Convolutional Neural Networks | |
CN118044785A (zh) | 一种基于多模态的阿尔兹海默症特征融合分析方法及终端 | |
CN118229712A (zh) | 基于增强多维特征感知的肝脏肿瘤图像分割系统 | |
CN117315721A (zh) | 基于特征整合方法的oct图像脉络膜分割网络模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |