CN112541923A - 一种基于眼底图数据集迁移学习的视杯视盘分割方法 - Google Patents
一种基于眼底图数据集迁移学习的视杯视盘分割方法 Download PDFInfo
- Publication number
- CN112541923A CN112541923A CN202011412045.1A CN202011412045A CN112541923A CN 112541923 A CN112541923 A CN 112541923A CN 202011412045 A CN202011412045 A CN 202011412045A CN 112541923 A CN112541923 A CN 112541923A
- Authority
- CN
- China
- Prior art keywords
- data set
- fundus
- cup
- features
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/0016—Operational features thereof
- A61B3/0025—Operational features thereof characterised by electronic signal processing, e.g. eye models
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/12—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for looking at the eye fundus, e.g. ophthalmoscopes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/14—Arrangements specially adapted for eye photography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Surgery (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- Veterinary Medicine (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Eye Examination Apparatus (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人工智能技术领域,具体涉及医疗眼底图数据集,特别是针对眼底图数据集迁移学习的视杯视盘分割方法。该方法通过骨干分割网络和两个领域判别器的对抗训练,提取眼底图数据集间的通用特征,并利用注意力模块对特征进行加权,解决了视杯视盘界限模糊的问题,排除了其余多种眼底病灶对分割任务的干扰。在不使用目标数据集标注信息的前提下,算法在眼底图数据集迁移过程中保持较高的视杯视盘分割精度,有效解决了标注眼底数据不足对于传统自动青光眼筛查方法性能的限制。
Description
技术领域
本发明属于人工智能技术领域,具体涉及医疗眼底图数据集,特别是针对眼底图数据集迁移学习的视杯视盘分割方法。
背景技术
全世界范围内,青光眼是导致失明的主要疾病。该疾病会引起视神经纤维的缺损,进而导致不可逆转的视觉损害。因此,及早诊断和治疗对于青光眼患者极为关键。
在临床中,杯盘比(Cup-to-Disc Ratio,CDR),即视杯(optic cup,OC)与视盘(optic disc,OD)的上下径(vertical diameter)比率,是青光眼筛查的一个重要指标。由于视神经纤维的病变,青光眼通常会导致杯盘比显著增大。通过分析眼底图(eye fundusimage),医生可以对视杯视盘区域的形态学变化进行准确追踪,进而实现青光眼的筛查及初步诊断。
近年来,随着计算机视觉的发展,基于深度语义分割模型的青光眼自动筛查算法(下称:自动筛查算法),被广泛应用于临床辅助诊断。自动筛查算法在眼底图中定位并分割出视杯视盘区域后,计算得到对应的杯盘比,并针对杯盘比超出阈值的受测者给出青光眼患病提示。因此,视杯视盘分割的精确度,极大影响自动筛查算法的性能。
然而,不同型号的眼底相机(fundus camera)拍摄的眼底图在视角、分辨率以及对比度等方面存在差异,这种差异导致自动筛查算法无法在眼底图数据集间有效迁移。为了保证在不同数据集上均达到理想的视杯视盘分割效果,传统自动筛查算法需要针对不同设备拍摄的眼底图数据集分别进行有标签的预训练。受限于专业医学标注的高昂成本,仅有少量的眼底图数据集包含专家标注信息,因此预训练的方法不能解决自动筛查算法迁移至无标注眼底图数据集的问题。
综上所述,基于眼底图数据集迁移学习的视杯视盘分割是一项创新的研究问题,具有重要的研究意义和应用价值。
发明内容
本发明的目的是解决现有的青光眼自动筛查算法在眼底图数据集迁移过程中,无法准确分割视杯视盘的问题。提出了一种基于眼底图数据集迁移学习的视杯视盘分割方法,在目标眼底图数据集无标注信息的情况下,学习数据集间通用特征,使得算法在数据迁移后仍能达到较好的视杯视盘分割精度。
本发明提出了一种基于眼底图数据集迁移学习的视杯视盘分割方法,该方法构建一个深度对抗模型,基于集成注意力模块的骨干分割网络,通过与两个领域判别器间的对抗训练完成参数更新,使得模型学习到不同眼底图数据集间的通用特征,实现在眼底图数据集迁移过程中保持较好的视杯视盘分割精度。
为实现上述目的,本发明采用如下技术方案:
一种基于眼底图数据集迁移学习的视杯视盘分割方法,包括以下步骤,
第1步、数据预处理
首先对于收集到的眼底图数据进行数据清洗与数据剪裁之后,为数据集赋予领域标签,有标注的眼底图数据集为源数据集,未标注的眼底图数据集为目标数据集,完成数据重构,使数据集满足模型输入;
第2步、分割模型训练
同时进行骨干网络定位和分割视杯视盘区域、特征领域判别器辅助学习领域通用高层特征和注意力领域判别器辅助学习图像级别通用特征;
第2.1步、骨干网络定位和分割视杯视盘区域
第1步数据预处理后,对于源数据集,使用集成注意力模块的骨干网络分割视杯视盘区域,并根据标注信息进行训练;
第2.2步、特征领域判别器辅助学习领域通用高层特征
使用源数据集和目标数据集的眼底图数据集,完成骨干网络、注意力模块与特征领域判别器的对抗训练,逐步提取领域通用高层特征;
第2.3步、注意力领域判别器辅助学习图像级别通用特征
使用源数据集和目标数据集的眼底图数据集,完成骨干网络、注意力模块与注意力领域判别器的对抗训练,逐步提取图像级别通用特征;
第3步、基于眼底图迁移学习的视杯视盘分割
将目标数据集的眼底图数据输入至训练后的分割模型,得到最终的视杯视盘分割结果。
本技术方案进一步的优化,所述第1步数据预处理的具体步骤为,
第1.1步、数据清洗与数据剪裁
收集眼底图数据,清洗在信息采集过程中发生错误的数据,仅保留能够正常用作医学检测的眼底图;视杯视盘分割任务的特性,对于原始眼底图进行剪裁,在保留眼底图医学特征的前提下满足数据输入的尺寸要求;
第1.2步、数据增强;
为尽可能获得更多的眼底图数据用作模型训练,在保留医学特征的前提下,将原始的图像进行水平翻转、竖直翻转以及旋转180°等数据增强操作,经过数据增强后,数据集规模扩大至原始数据集的4倍;
第1.3步、数据重构
定义源数据集与目标数据集,并为数据集赋予领域标签。
本技术方案更进一步的优化,所述源数据集与目标数据集的定义如下,
定义1:源数据集与目标数据集,定义如下:
在模型训练过程中,提供眼底图以及视杯视盘标注信息的数据集为源数据集,包含的眼底图数据记作,标注信息记作Ys,仅提供眼底图而不提供视杯视盘标注信息的数据集为目标数据集,包含的眼底图数据记作Xt;数据集中的Xs和Xt均为形如H×W×3的三维矩阵,元素取值为[0,255]区间内的整数;Ys为形如H×W×1的三维矩阵,元素取值为0或255;H和W分别对应图像的高度和宽度;
对于所有眼底图数据,根据数据是属于源数据集或目标数据集,分配领域标签,并将包含领域标签的重构数据作为模型的最终输入;
定义2:源数据集与目标数据集重构,定义如下:
对源数据集和目标数据集,分配领域标签,并重构模型输入为<Xs,0>以及<Xt,1>,其中:
0∈01×1,1∈11×1。
本技术方案进一步的优化,所述第2.1步骨干网络定位和分割视杯视盘区域的具体方法是,
第2.1.1、骨干网络编码器提取眼底图高层特征
骨干网络U-Net可分为编码器(Encoder)和解码器(Decoder),分别降低和提高图像的分辨率,编码器通过前向传递,逐层提取输入数据的高层特征,编码器的每一层由一系列卷积操作组成;每一次卷积运算后,使用非线性激活函数对卷积得到的特征进行非线性映射;
其中,xl表示Encoder第l层输出的特征矩阵,特别地,当l=0时,xl为来自源数据集或目标数据集的眼底图输入Xs或Xt;c和c′表示特征矩阵在某通道维度(channeldimension)的取值,k表示卷积核,*表示卷积运算,σ1表示非线性激活函数。此外,Encoder通过最大池化(max-pooling)运算,降低特征矩阵的空间尺度,在提升模型鲁棒性的同时避免模型过拟合。
第2.1.2、骨干网络解码器恢复特征矩阵分辨率及位置信息
解码器通过上采样的方法,恢复特征矩阵的空间尺度,每一次上采样后,通过跳跃连接将解码器输出的特征矩阵和编码器输出的特征矩阵在通道维度进行拼接:
实际上,Encoder提取到的高层特包含输入眼底图Xs的语义信息和边缘、纹理等特征,解码器通过恢复高层特征的空间尺度,来实现特征向空间位置的映射,并输出最终视杯视盘的分割结果并以输出的分割结果计算杯盘比,进行青光眼的自动化筛查。根据源数据集的标注信息定义损失函数如下:
其中θE和θU分别表示Encoder和Decoder的参数,H,W分别表示特征矩阵的高度和宽度。由损失函数,通过梯度下降和反向传播算法实现模型参数的更新。
第2.1.3、注意力模块提升视杯视盘定位与分割精度
对于视杯视盘分割任务,通过注意力模块,对于眼底图中任务相关区域的特征矩阵给予更高的权重,可以提高视杯视盘的分割精度;而对于任务无关区域,给予相对低的权重,可以避免模型受到眼底图中其他病变的干扰,
其中,表示通道维度的特征矩阵拼接,注意力模块的参数θattn由线性映射矩阵 以及偏置项组成,由于编码器不同层输出的特征矩阵xl包含不同类型的高层特征,如边缘特征和纹理特征,而对于视杯视盘分割任务,边缘特征相较于纹理特征对于更有助于提升模型的效果,因此,通过引入动态可学习参数βl,对于每层的注意力矩阵进行加权得到αl:
其中,σ2(·)表示归一化函数,保证注意力矩阵求和后为1,利用αl对于不同层次输出的特征进行加权,以保证给予任务相关区域高权重,并且平衡不同高层特征对于最终视杯视盘分割任务的贡献,通过元素间乘法运算得到加权后的特征矩阵:
其中,N表示特征矩阵中元素的个数。
本技术方案更进一步的优化,所述第2.2步特征领域判别器辅助学习领域通用高层特征是,
通过使用源数据集和目标数据集的眼底图Xs和Xt以及对应的领域标签0和1,特征领域判别器能够辅助模型学习领域通用高层特征,将源数据集和目标数据集的眼底图同时送入网络中,编码器分别提取到高层特征Encoder(Xs)和Encoder(Xt),对于编码器提取到的特征,特征领域判别器Dfeat输出领域预测结果进而判断提取的特征是来自源数据集或目标数据集,定义交叉熵(cross-entropy)损失函数:
其中,表示眼底图的领域标签,为Dfeat的参数,编码器通过最大化损失函数Lfeat来更新参数θE;同时,Dfeat通过最小化损失函数Lfeat来更新参数Lfeat和Dfeat使用相反的优化方向进行对抗训练,在达到平衡收敛状态时,编码器提取到了领域通用的高层特征。
本技术方案更进一步的优化,第2.3步注意力领域判别器辅助学习图像级别通用特征是,
通过使用源数据集和目标数据集的眼底图Xs和Xt以及对应的领域标签0和1,注意力领域判别器能够辅助模型学习图像级别通用特征,将源数据集和目标数据集的眼底图同时送入网络中,获取解码器r最终输出特征矩阵的注意力权重和对于输出的注意力权重,注意力领域判别器Dattn输出领域预测结果进而判断提取的特征是来自源数据集或目标数据集。定义交叉熵(cross-entropy)损失函数:
其中,表示眼底图的领域标签,为Dattn的参数。编码器、解码器与注意力模块通过最大化损失函数Lattn来更新参数θE、θU与θattn;同时,Dattn通过最小化损失函数Lattn来更新参数Lattn和Dattn使用相反的优化方向进行对抗训练,在达到平衡收敛状态时,模型提取到了图像级别通用特征。
本技术方案更进一步的优化,所述第3步基于眼底图迁移学习的视杯视盘分割是,将目标数据集的眼底图数据Xt输入进训练后的模型,经过编码器提取高层特征、注意力模块特征加权以及解码器上采样运算后,得到最终的视杯视盘分割结果
区别于现有技术,上述技术方案的有益效果如下:
本发明开创性地提出了一种基于眼底图数据集迁移学习的视杯视盘分割方法,通过与特征领域判别器和注意力领域判别器的对抗训练,模型学习到不同眼底图数据集的通用特征,以实现在眼底图数据集迁移的过程中取得较好的视杯视盘分割精度。特别地,由于使用领域判别器进行对抗训练,本发明可以在无需目标数据集标注信息的前提下,实现无监督的数据集迁移。此外,本发明将注意力模块与骨干分割网络融合,通过动态可学习系数与注意力权重的加权的方法,解决了视杯视盘分界模糊等问题,显著提升了模型对视杯视盘区域的分割精度。本发明重点关注眼底图数据集间差异大、标注成本高带来的数据集迁移难题,基于迁移学习、对抗训练以及注意力机制等深度学习方法,克服了标注眼底图数据不足对于视杯视盘分割任务的限制。
附图说明
图1为基于眼底图数据集迁移学习的视杯视盘分割方法的流程图;
图2为正常人(左)与青光眼患者(右)眼底图视杯视盘形态;
图3为眼底图数据集迁移学习模型的示意图;
图4为具有动态可学习系数的注意力模块的示意图;
图5为跨眼底图数据集视盘分割结果示意图;
图6为跨眼底图数据集视杯分割结果示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1所示,为基于眼底图数据集迁移学习的视杯视盘分割方法的流程图,该实施例的具体实施过程分为3个步骤,具体步骤如下。
第1步、眼底图数据收集与数据预处理
收集公开眼底图数据集作为研究用数据集。常见的有DRISHTI-GS、RIM-ONE v3以及REFUGE数据集。
DRISHTI-GS眼底图数据集。该数据集由印度Arvind Eye Hospital收集并标注,共包含101张以视盘为中心的彩色眼底图,视角为30°,分辨率近似为2047x1760。其中50张眼底图用作训练,其余51张用作测试。
RIM-ONE v3眼底图数据集。该数据集由西班牙Department of Ophthalmology atthe Hospital Universitario de Canarias创建,包含159张具有医学手工标注的眼底图,致力于视神经乳头分割的青光眼检测。
REFUGE眼底图数据集。该数据集来自MICCAI2018基于眼底彩照的青光眼分析比赛。现阶段已公开400张彩色眼底图,每张眼底图均由中山大学中山眼科中心的七位眼科专家标注视杯视盘信息。
在收集眼底图数据集后,进行数据预处理。眼底图数据来自眼底相机的输出,图像的分辨率非常高,不适合直接作为神经网络的输入。同时,由于受拍摄设备的不确定性影响,例如,镜头污损等极端情况,部分眼底图可能包含许多噪声信息。此外,由于眼底图数据集的规模普遍较小,需要使用数据增强的相关方法对数据集进行扩充。最后,对数据集进行数据重构,为不同眼底图数据集赋予领域标签,满足深度对抗模型的数据输入。
第1.1步、数据清洗与数据剪裁
首先,在眼底图数据集中,一些信息采集过程中发生的错误,例如,镜头污损、镜头对焦不准等情况,导致采集到的眼底图数据不能很好地展示眼底的医学特征。因此,对于该类数据进行数据清洗,仅保留能够正常用作医学检测的眼底图。
在此之后,对于数据清洗后的眼底图数据集进行数据剪裁。眼底图的分辨率过大,不能直接作为神经网络的输入。基于视杯视盘分割任务的特性,对于原始眼底图进行剪裁,在保留眼底图医学特征的前提下满足数据输入的尺寸要求。
由于眼底图的分辨率过大,通常超过2000×2000像素,因此不能直接作为神经网络的输入。基于视杯视盘分割任务特性,在眼底图中,以视盘区域为中心,截取出一个800×800像素的正方形区域,而后通过线性插值,将该区域缩放至128×128像素,得到满足神经网络输入尺寸要求的图片。
第1.2步、数据增强
经过上一步的处理,包含噪声且无医学含义的眼底图已被清除,剩余的眼底图通过数据剪裁操作,在图像尺寸方面也已符合模型的输入要求。而后,在保留眼底图医学特征的前提下,利用计算机视觉领域的数据增强方法,对于原始数据集进行扩充。
经过数据清洗与数据剪裁,已清除包含噪声且无医学含义的眼底图,并将剩余的眼底图通过数据剪裁,使其尺寸神经网络模型的输入要求。而后,在保留眼底图医学特征的前提下,将原始的图像进行水平翻转、竖直翻转以及旋转180°的数据增强操作。经过数据增强后,数据集规模扩大至原始数据集的4倍。
第1.3步、数据重构
对于眼底图数据集的迁移学习,定义源数据集和目标数据集,完成从源数据集向目标数据集的定向知识迁移任务。
定义1:源数据集与目标数据集,定义如下:
在模型训练过程中,提供眼底图以及视杯视盘标注信息的数据集为源数据集,包含的眼底图数据记作Xs,标注信息记作Ys;仅提供眼底图而不提供视杯视盘标注信息的数据集为目标数据集,包含的眼底图数据记作Xt。数据集中的Xs和Xt均为形如H×W×3的三维矩阵,元素取值为[0,255]区间内的整数;Ys为形如H×W×1的三维矩阵,元素取值为0或255;H和W分别对应图像的高度和宽度。
对于所有眼底图数据,根据数据是属于源数据集或目标数据集,分配领域标签,并将包含领域标签的重构数据作为模型的最终输入。
定义2:源数据集与目标数据集重构,定义如下:
对源数据集和目标数据集,分配领域标签,并重构模型输入为<Xs,0>以及<Xt,1>,其中:
0∈01×1,1∈11×1。
此外,为对抗训练定义源数据集和目标数据集。在训练过程中使用标注信息的为源数据集,不使用标注信息的为目标数据集,并分别设置领域标签。参阅图2所示,为正常人(左)与青光眼患者(右)眼底图视杯视盘形态。
第2步、分割模型训练
第2.1步、骨干网络与注意力模块定位并分割视杯视盘区域
第1步得到重构后的眼底图数据可直接用于模型训练。参阅图3所示,为眼底图数据集迁移学习模型的示意图,展示了本发明提出的基于眼底图数据集迁移学习的视杯视盘方法的模型框架,模型通过经典的分割模型U-Net,定位并输出眼底图的视杯视盘分割结果。U-Net可以分为两个子模块:编码器(Encoder)和解码器(Decoder),分别降低和提升图像的分辨率。Encoder和Decoder之间通过跳跃连接(skip connection)将相同尺度的特征进行拼接,已保留不同尺度的信息和位置特征。
第2.1.1步、骨干网络编码器提取眼底图高层特征
Encoder通过前向传递,逐层提取输入数据的高层特征。Encoder的每一层由一系列卷积操作组成;每一次卷积运算后,使用非线性激活函数对卷积得到的特征进行非线性映射;而后通过最大池化(max-pooling)的下采样方法,降低特征矩阵的空间维度,避免模型过拟合,提高算法的鲁棒性:
xl=Encoder(xl-1)
其中,xl表示Encoder第l层输出的特征矩阵。特别地,当l=0时,xl为来自源数据集或目标数据集的眼底图输入Xs或Xt。
第2.1.2、骨干网络解码器恢复特征矩阵分辨率及位置信息;
Decoder通过上采样的方法,恢复特征矩阵的空间尺度。每一次上采样后,通过跳跃连接将Decoder输出的特征矩阵和Encoder输出的特征矩阵在通道维度进行拼接:
实际上,Encoder提取到的高层特征包含输入眼底图的语义信息和边缘、纹理等特征,Decoder通过恢复高层特征的空间尺度,来实现特征向空间位置的映射。
第2.1.3、注意力模块提升视杯视盘定位与分割精度
如图2所示,对于视杯视盘分割任务,眼底图中视杯视盘区域为任务相关区域(region of interest,ROI),其余部分均与任务无关。因此,对于ROI区域的特征矩阵给予更高的权重,可以提高视杯视盘的分割精度;而对于任务无关区域,给予相对低的权重,可以避免模型受到眼底图中其他病变的干扰。
图4所展示的为本发明提出的注意力模块示意图。通过将注意力模块集成至骨干网络中,模型可以获得更好的可扩展性。在Encoder和Decoder之间的跳跃连接运算前,基于输出的特征矩阵xl和ul计算注意力权重矩阵
由于Encoder不同层输出的特征矩阵xl包含不同类型的高层特征,如边缘特征和纹理特征。而对于视杯视盘分割任务,边缘特征相较于纹理特征对于更有助于提升模型的效果。因此,通过引入动态可学习参数βl,对每层的注意力矩阵进行加权得到αl。利用αl对于不同层次输出的特征进行加权,以保证给予ROI区域高权重,并且平衡不同高层特征对于最终视杯视盘分割任务的贡献。
αl=βl·αl
第2.2步、特征领域判别器辅助学习领域通用高层特征
不同的眼底图数据集由于拍摄设备的不同,导致图像在视角、分辨率以及对比度等方面存在显著的差异。这种差异可以公式化为数据集间概率分布的不一致,即P(Xs)≠P(Xt)。因此,传统的视杯视盘分割方法在数据集间直接迁移时,会出现明显的性能下降。为了使分割算法在眼底图数据集间迁移的过程中保持较好的分割效果,可以设置特征领域判别器辅助模型学习领域通用高层特征。
对于Encoder最后一层的特征矩阵输出xL,特征领域判别器Dfeat试图区分输出的特征矩阵是提取自源数据集的输入Xs或是目标数据集的输入Xt;Encoder则尽可能对不同的数据集提取通用的高层特征,以此来迷惑Dfeat的判断。
使用源数据集和目标数据集的眼底图Xs和Xt以及对应的领域标签0和1,特征领域判别器辅助模型学习领域通用高层特征。将源数据集和目标数据集的眼底图同时送入网络中,Encoder分别提取到源数据集和目标数据集高层特征Encoder(Xs)和Encoder(Xs)。对于Encoder提取到的特征,特征领域判别器Dfeat输出领域预测结果判断提取到的特征是来自源数据集或目标数据集。定义交叉熵(cross-entropy)损失函数:
其中,表示眼底图的领域标签,为Dfeat的参数。Encoder通过最大化损失函数Lfeat来更新参数θE;与之相对的,Dfeat通过最小化损失函数Lfeat来更新参数Lfeat和Dfeat使用相反的优化方向进行对抗训练,在达到平衡收敛状态时,Encoder提取到了领域通用的高层特征。
第2.3步、注意力领域判别器辅助学习图像级别通用特征
与Dfeat的原理相类似,通过设置注意力领域判别器Dattn,辅助模型学习图像级别的通用特征。利用骨干网络输出层的注意力权重αout,Dattn试图区分该图像级别注意力权重是针对源数据集的输入Xs或是目标数据集的输入Xt;骨干网络则尽可能为通用的图像级别特征赋予相似的注意力权重,以此来迷惑Dattn的判断。
使用源数据集和目标数据集的眼底图Xs和Xt以及对应的领域标签0和1,注意力领域判别器辅助学习图像级别通用特征。将源数据集和目标数据集的眼底图同时送入网络中,获取Decoder最终输出特征矩阵的注意力权重和对于输出的注意力权重,注意力领域判别器Dattn输出领域预测结果判断提取的特征是来自源数据集或目标数据集。定义交叉熵(cross-entropy)损失函数:
其中,表示眼底图的领域标签,为Dattn的参数。Encoder、Decoder与注意力模块通过最大化损失函数Lattn来更新参数θE、θU与θattn;与之相对的,Dattn通过最小化损失函数Lattn来更新参数Lattn和Dattn使用相反的优化方向进行对抗训练,在达到平衡收敛状态时,模型提取到了图像级别通用特征。
使用时:
分割骨干网络分为两个部分,即编码器和解码器。编码器通过卷积和下采样提取到高层的特征(边缘、纹理),解码器再将得到的高层特征通过反卷积和上采样恢复到输入图像的尺寸,输出最终的分割结果。注意力模块使用编码器和解码器得到的中间结果,进行权重运算;在训练阶段,特征领域判别器使用编码器得到的高层语义特征来进行对抗训练,使模型提取到的高层特征对于源领域和目标领域均适用(即通用高层特征);注意力领域判别器使用解码器最终输出结果的注意力权重进行对抗训练。骨干网络模型训练好后,在实际使用中,两个判别器均不参与运算,输入的眼底图仅通过骨干网络和注意力模块,得到分割结果。
第3步、基于眼底图迁移学习的视杯视盘分割
分割模型训练后,将目标数据集的眼底图数据Xt输入至训练后的分割模型,经过Encoder提取高层特征、注意力模块特征加权以及Decoder上采样运算后,得到最终的视杯视盘分割结果基于眼底图数据集迁移学习的视杯视盘分割任务结束。
使用Dice Score和IOU Score两个指标来比较视杯视盘的分割精度。Dice Score和IoU Score的数值越接近1,分割精度越高,即分割的效果越好;反之,Dice Score和IoUScore数值越接近0,分割精度越低即分割的效果越差。
参阅图5展示的跨眼底图数据集视盘分割结果,以及图6展示的跨眼底图数据集视杯分割结果可知,在不使用目标眼底图数据集标注信息的条件下,本发明的方法在两个眼底图数据集迁移后的分割任务中均取得了较高的分割精度,优于所有对比实验的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (7)
1.一种基于眼底图数据集迁移学习的视杯视盘分割方法,其特征在于:包括以下步骤,
第1步、数据预处理
首先对于收集到的眼底图数据进行数据清洗与数据剪裁之后,为数据集赋予领域标签,有标注的眼底图数据集为源数据集,未标注的眼底图数据集为目标数据集,完成数据重构,使数据集满足模型输入;
第2步、分割模型训练
进行骨干网络定位和分割视杯视盘区域、特征领域判别器辅助学习领域通用高层特征和注意力领域判别器辅助学习图像级别通用特征;
第2.1步、骨干网络定位和分割视杯视盘区域
第1步数据预处理后,对于源数据集,使用集成注意力模块的骨干网络分割视杯视盘区域,并根据标注信息进行训练;
第2.2步、特征领域判别器辅助学习领域通用高层特征
使用源数据集和目标数据集的眼底图数据集,完成骨干网络、注意力模块与特征领域判别器的对抗训练,逐步提取领域通用高层特征;
第2.3步、注意力领域判别器辅助学习图像级别通用特征
使用源数据集和目标数据集的眼底图数据集,完成骨干网络、注意力模块与注意力领域判别器的对抗训练,逐步提取图像级别通用特征;
第3步、基于眼底图迁移学习的视杯视盘分割
将目标数据集的眼底图数据输入至训练后的分割模型,得到最终的视杯视盘分割结果。
2.如权利要求1所述的基于眼底图数据集迁移学习的视杯视盘分割方法,其特征在于:所述第1步数据预处理的具体步骤为,
第1.1步、数据清洗与数据剪裁
收集眼底图数据,清洗在信息采集过程中发生错误的数据,仅保留能够正常用作医学检测的眼底图;视杯视盘分割任务的特性,对于原始眼底图进行剪裁,在保留眼底图医学特征的前提下满足数据输入的尺寸要求;
第1.2步、数据增强;
为尽可能获得更多的眼底图数据用作模型训练,在保留医学特征的前提下,将原始的图像进行水平翻转、竖直翻转以及旋转180°等数据增强操作,经过数据增强后,数据集规模扩大至原始数据集的4倍;
第1.3步、数据重构
定义源数据集与目标数据集,并为数据集赋予领域标签。
3.如权利要求2所述的基于眼底图数据集迁移学习的视杯视盘分割方法,其特征在于:所述源数据集与目标数据集的定义如下,
定义1:源数据集与目标数据集,定义如下:
在模型训练过程中,提供眼底图以及视杯视盘标注信息的数据集为源数据集,源数据集包含的眼底图数据记作,标注信息记作Ys,仅提供眼底图而不提供视杯视盘标注信息的数据集为目标数据集,目标包含的眼底图数据记作Xt,数据集中的Xs和Xt均为形如H×W×3的三维矩阵,元素取值为[0,255]区间内的整数,Ys为形如H×W×1的三维矩阵,元素取值为0或255,H和W分别对应图像的高度和宽度;
对于所有眼底图数据,根据数据是属于源数据集或目标数据集,分配领域标签,并将包含领域标签的重构数据作为模型的最终输入;
定义2:源数据集与目标数据集重构,定义如下:
对源数据集和目标数据集,分配领域标签,并重构模型输入为<Xs,0>以及<Xt,1>,其中:
0∈01×1,1∈11×1。
4.如权利要求1所述的基于眼底图数据集迁移学习的视杯视盘分割方法,其特征在于:所述第2.1步骨干网络定位和分割视杯视盘区域的具体方法是,
第2.1.1、骨干网络编码器提取眼底图高层特征
骨干网络U-Net可分为编码器和解码器,分别降低和提高图像的分辨率,编码器通过前向传递,逐层提取输入数据的高层特征,编码器的每一层由一系列卷积操作组成;每一次卷积运算后,使用非线性激活函数对卷积得到的特征进行非线性映射;
其中,xl表示Encoder第l层输出的特征矩阵,特别地,当l=0时,xl为来自源数据集或目标数据集的眼底图输入Xs或Xt;c和c′表示特征矩阵在某通道维度(channel dimension)的取值,k表示卷积核,*表示卷积运算,σ1表示非线性激活函数;此外,Encoder通过最大池化(max-pooling)运算,降低特征矩阵的空间尺度,在提升模型鲁棒性的同时避免模型过拟合;
第2.1.2、骨干网络解码器恢复特征矩阵分辨率及位置信息
解码器通过上采样的方法,恢复特征矩阵的空间尺度,每一次上采样后,通过跳跃连接将解码器输出的特征矩阵和编码器输出的特征矩阵在通道维度进行拼接:
实际上,编码器提取到的高层特包含输入眼底图的语义信息和边缘、纹理等特征,解码器通过恢复高层特征的空间尺度,来实现特征向空间位置的映射,并输出最终视杯视盘的分割结果以计算杯盘比,并进行青光眼的自动化筛查;
第2.1.3、注意力模块提升视杯视盘定位与分割精度
对于视杯视盘分割任务,通过注意力模块,对于眼底图中任务相关区域的特征矩阵给予更高的权重,可以提高视杯视盘的分割精度;而对于任务无关区域,给予相对低的权重,可以避免模型受到眼底图中其他病变的干扰,
由于编码器不同层输出的特征矩阵xl包含不同类型的高层特征,如边缘特征和纹理特征,而对于视杯视盘分割任务,边缘特征相较于纹理特征对于更有助于提升模型的效果,因此,通过引入动态可学习参数βl,对于每层的注意力矩阵进行加权得到αl:
其中,σ2(·)表示归一化函数,保证注意力矩阵求和后为1,利用αl对于不同层次输出的特征进行加权,以保证给予任务相关区域高权重,并且平衡不同高层特征对于最终视杯视盘分割任务的贡献,通过元素间乘法运算得到加权后的特征矩阵:
其中,N表示特征矩阵中元素的个数。
5.如权利要求4所述的基于眼底图数据集迁移学习的视杯视盘分割方法,其特征在于:所述第2.2步特征领域判别器辅助学习领域通用高层特征是,
通过使用源数据集和目标数据集的眼底图Xs和Xt以及对应的领域标签0和1,特征领域判别器能够辅助模型学习领域通用高层特征,将源数据集和目标数据集的眼底图同时送入网络中,编码器分别提取到高层特征Encoder(Xs)和Encoder(Xt),对于编码器提取到的特征,特征领域判别器Dfeat输出领域预测结果进而判断提取的特征是来自源数据集或目标数据集,定义交叉熵(cross-entropy)损失函数:
6.如权利要求5所述的基于眼底图数据集迁移学习的视杯视盘分割方法,其特征在于:第2.3步注意力领域判别器辅助学习图像级别通用特征是,
通过使用源数据集和目标数据集的眼底图Xs和Xt以及对应的领域标签0和1,注意力领域判别器能够辅助模型学习图像级别通用特征,将源数据集和目标数据集的眼底图同时送入网络中,获取编码器最终输出特征矩阵的注意力权重和对于输出的注意力权重,注意力领域判别器Dattn输出领域预测结果进而判断提取的特征是来自源数据集或目标数据集,定义交叉熵(cross-entropy)损失函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412045.1A CN112541923B (zh) | 2020-12-03 | 2020-12-03 | 一种基于眼底图数据集迁移学习的视杯视盘分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412045.1A CN112541923B (zh) | 2020-12-03 | 2020-12-03 | 一种基于眼底图数据集迁移学习的视杯视盘分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541923A true CN112541923A (zh) | 2021-03-23 |
CN112541923B CN112541923B (zh) | 2022-04-08 |
Family
ID=75016007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011412045.1A Active CN112541923B (zh) | 2020-12-03 | 2020-12-03 | 一种基于眼底图数据集迁移学习的视杯视盘分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541923B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065646A (zh) * | 2021-05-14 | 2021-07-02 | 杭州迪英加科技有限公司 | 一种能够实现ki67病理图像神经网络模型泛化性能的方法 |
CN113379674A (zh) * | 2021-04-28 | 2021-09-10 | 北京医准智能科技有限公司 | 一种医学图像的检测方法及装置 |
CN115482933A (zh) * | 2022-11-01 | 2022-12-16 | 北京鹰瞳科技发展股份有限公司 | 用于对驾驶员的驾驶风险进行评估的方法及其相关产品 |
CN116934747A (zh) * | 2023-09-15 | 2023-10-24 | 江西师范大学 | 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615632A (zh) * | 2018-11-09 | 2019-04-12 | 广东技术师范学院 | 一种基于半监督条件生成式对抗网络的眼底图视盘和视杯分割方法 |
CN110992382A (zh) * | 2019-12-30 | 2020-04-10 | 四川大学 | 用于辅助青光眼筛查的眼底图像视杯视盘分割方法及系统 |
EP3660785A1 (en) * | 2018-11-30 | 2020-06-03 | Laralab UG | Method and system for providing an at least 3-dimensional medical image segmentation of a structure of an internal organ |
CN111325726A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯医疗健康(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN111667490A (zh) * | 2020-05-07 | 2020-09-15 | 清华大学深圳国际研究生院 | 一种眼底图片视杯视盘分割方法 |
CN111986202A (zh) * | 2020-10-26 | 2020-11-24 | 平安科技(深圳)有限公司 | 青光眼辅助诊断装置、方法及存储介质 |
-
2020
- 2020-12-03 CN CN202011412045.1A patent/CN112541923B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615632A (zh) * | 2018-11-09 | 2019-04-12 | 广东技术师范学院 | 一种基于半监督条件生成式对抗网络的眼底图视盘和视杯分割方法 |
EP3660785A1 (en) * | 2018-11-30 | 2020-06-03 | Laralab UG | Method and system for providing an at least 3-dimensional medical image segmentation of a structure of an internal organ |
CN110992382A (zh) * | 2019-12-30 | 2020-04-10 | 四川大学 | 用于辅助青光眼筛查的眼底图像视杯视盘分割方法及系统 |
CN111325726A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯医疗健康(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN111667490A (zh) * | 2020-05-07 | 2020-09-15 | 清华大学深圳国际研究生院 | 一种眼底图片视杯视盘分割方法 |
CN111986202A (zh) * | 2020-10-26 | 2020-11-24 | 平安科技(深圳)有限公司 | 青光眼辅助诊断装置、方法及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379674A (zh) * | 2021-04-28 | 2021-09-10 | 北京医准智能科技有限公司 | 一种医学图像的检测方法及装置 |
CN113065646A (zh) * | 2021-05-14 | 2021-07-02 | 杭州迪英加科技有限公司 | 一种能够实现ki67病理图像神经网络模型泛化性能的方法 |
CN115482933A (zh) * | 2022-11-01 | 2022-12-16 | 北京鹰瞳科技发展股份有限公司 | 用于对驾驶员的驾驶风险进行评估的方法及其相关产品 |
CN115482933B (zh) * | 2022-11-01 | 2023-11-28 | 北京鹰瞳科技发展股份有限公司 | 用于对驾驶员的驾驶风险进行评估的方法及其相关产品 |
CN116934747A (zh) * | 2023-09-15 | 2023-10-24 | 江西师范大学 | 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统 |
CN116934747B (zh) * | 2023-09-15 | 2023-11-28 | 江西师范大学 | 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112541923B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112541923B (zh) | 一种基于眼底图数据集迁移学习的视杯视盘分割方法 | |
Zhang et al. | Automatic cataract grading methods based on deep learning | |
CN108021916B (zh) | 基于注意力机制的深度学习糖尿病视网膜病变分类方法 | |
CN110211087B (zh) | 可分享的半自动糖尿病眼底病变标注方法 | |
Tian et al. | Multi-path convolutional neural network in fundus segmentation of blood vessels | |
Uysal et al. | Computer-aided retinal vessel segmentation in retinal images: convolutional neural networks | |
CN112132817A (zh) | 一种混合注意力机制的眼底图像视网膜血管分割方法 | |
CN113205524B (zh) | 基于U-Net的血管图像分割方法、装置和设备 | |
CN114612389B (zh) | 基于多源多尺度特征融合的眼底图像质量评价方法和装置 | |
CN112686855A (zh) | 一种眼象与症状信息的信息关联方法 | |
Lyu et al. | Fundus image based retinal vessel segmentation utilizing a fast and accurate fully convolutional network | |
CN113870270B (zh) | 一种统一框架下的眼底影像视杯、视盘分割方法 | |
Zhang et al. | MC-UNet multi-module concatenation based on U-shape network for retinal blood vessels segmentation | |
CN113362360B (zh) | 基于流体速度场的超声颈动脉斑块分割方法 | |
CN109063557B (zh) | 快速构建心脏冠脉血管识别数据集的方法 | |
CN113781403A (zh) | 一种胸部ct影像处理方法与装置 | |
CN113610842A (zh) | 基于CAS-Net的OCT图像视网膜脱离和劈裂自动分割方法 | |
Qayyum et al. | Single-shot retinal image enhancement using deep image priors | |
CN116092667A (zh) | 基于多模态影像的疾病检测方法、系统、装置及存储介质 | |
CN113011340B (zh) | 一种基于视网膜图像的心血管手术指标风险分类方法及系统 | |
CN109816665A (zh) | 一种光学相干断层扫描图像的快速分割方法及装置 | |
CN114612484A (zh) | 基于无监督学习的视网膜oct图像分割方法 | |
Mouzai et al. | Xray-Net: Self-supervised pixel stretching approach to improve low-contrast medical imaging | |
Preity et al. | Automated computationally intelligent methods for ocular vessel segmentation and disease detection: a review | |
Kamran et al. | Feature representation learning for robust retinal disease detection from optical coherence tomography images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |