CN117237711A - 一种基于对抗学习的双模态眼底图像分类方法 - Google Patents
一种基于对抗学习的双模态眼底图像分类方法 Download PDFInfo
- Publication number
- CN117237711A CN117237711A CN202311163217.XA CN202311163217A CN117237711A CN 117237711 A CN117237711 A CN 117237711A CN 202311163217 A CN202311163217 A CN 202311163217A CN 117237711 A CN117237711 A CN 117237711A
- Authority
- CN
- China
- Prior art keywords
- features
- discriminator
- oct
- fundus
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002902 bimodal effect Effects 0.000 title claims abstract description 39
- 210000001525 retina Anatomy 0.000 claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 85
- 230000006870 function Effects 0.000 claims description 24
- 238000005286 illumination Methods 0.000 claims description 24
- 201000010099 disease Diseases 0.000 claims description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 8
- 230000004256 retinal image Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000002207 retinal effect Effects 0.000 claims description 3
- 238000012014 optical coherence tomography Methods 0.000 description 79
- 230000008569 process Effects 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 8
- 230000003902 lesion Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 208000017442 Retinal disease Diseases 0.000 description 5
- 208000010412 Glaucoma Diseases 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 208000002177 Cataract Diseases 0.000 description 2
- 206010038923 Retinopathy Diseases 0.000 description 2
- 206010064930 age-related macular degeneration Diseases 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 208000020832 chronic kidney disease Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 208000002780 macular degeneration Diseases 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000032544 Cicatrix Diseases 0.000 description 1
- 206010012689 Diabetic retinopathy Diseases 0.000 description 1
- 208000002367 Retinal Perforations Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 208000030533 eye disease Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 208000029233 macular holes Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 231100000241 scar Toxicity 0.000 description 1
- 230000037387 scars Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Eye Examination Apparatus (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于对抗学习的双模态眼底图像分类方法,包括如下步骤:S1、构建数据集并将其分为训练集与测试集;S2、对数据集进行预处理;S3、构建双模态视网膜图像分类模型;S4、双模态视网膜图像分类模型的训练;S5、应用训练好的双模态视网膜图像分类模型,输出预测分类标签。该方法在实现多标签分类的同时,通过融合OCT图像的特征提高分类的准确率。
Description
技术领域
本发明涉及人工智能技术领域,具体指一种基于对抗学习的双模态眼底图像分类方法。
背景技术
眼科影像技术,如光学相干断层扫描技术(Optical Coherence Tomography,OCT)、眼底彩照(Fundus Photograph)等,是临床常见的检查手段,对于视网膜疾病、青光眼等的诊断具有非常重要的意义。眼底彩照主要利用眼底照相机获取眼底视网膜图像,通过观察眼底表面是否存在如出血、渗出、瘢痕等异常进行疾病诊断。OCT通过检测视网膜组织不同深度层面对入射弱相干光的背向反射或散射信号,获得组织横截面图像,进一步可构建得到视网膜三维结构图像,因此,通过OCT检查可以进一步明确患者是否存在如黄斑裂孔、黄斑劈裂等眼底病变,同时也能发现眼底照相机等不易检测到的视网膜早期病灶。
虽然OCT检查能够快速准确地反映眼底情况,但一台OCT设备的价格往往高达百万元,患者在医院进行一次OCT检查需要200元左右;而眼底彩照的设备则更为低廉易得,在各地区各级医院的普及率也更高。对于小型医院、诊所以及医疗资源较差的地区,患者难以通过OCT设备诊断疾病。同时,OCT设备操作步骤更为复杂、阅片依赖于高水平医生,限制了OCT设备的临床应用普及。
为方便患者就诊、推进医疗资源平衡,人工智能技术已被广泛应用于辅助诊断研究中。申请号为202180003036.3的专利公开了一种基于深度学习的用于诊断眼疾的眼底影像分类方法,该发明可以对眼底照相机获取的视网膜眼底图像进行分类。申请号为202011450625.X的专利公开了一种通过集成学习策略,在训练分支神经网络模型后进行模型融合的眼底照片分类方法,可解决现有慢性肾病检测中基于眼底照片的分类方法效率低且准确率低的技术问题,但该方法主要针对慢性肾病所致的视网膜病变,适用范围较小。申请号为202210563044.X的专利公开了一种多标签眼底图像分类方法,可对眼底图像进行8种类型的分类。
但是,以上几种辅助诊断研究往往是针对单一模态的病变自动识别或者是针对某种特定性疾病的分类检查,为进一步提高和拓展眼底疾病的早期筛查率和筛查范围,往往需要结合多种模态影像结果,如同时使用眼底图像与OCT图像进行诊断,才能保证准确率。但基于以上提出的OCT设备对操作人员的高要求以及成本的限制。
因此,亟需一种以低成本的眼底彩照为主的但又能实现OCT与眼底彩照联合诊断效果的眼底疾病分类方法,具有较强的现实意义。
发明内容
本发明针对上述现有技术中的不足,提供一种基于对抗学习的以眼底彩照为主的视网膜分类方法,在实现多标签分类的同时,通过融合OCT图像的特征提高分类的准确率。
为了解决上述技术问题,本发明的技术方案为:
一种基于对抗学习的以眼底彩照为主的视网膜分类方法,包括如下步骤:
步骤一、采集训练样本图像。通过OCT设备与眼底照相机分别对不同视网膜疾病患者与健康人群采集其视网膜OCT图像与眼底彩照,并将其分为训练集与测试集。
步骤二、训练样本的预处理。对所获取的视网膜OCT图像与眼底彩照进行预处理。
步骤三、构建双模态视网膜图像分类模型。基于对抗学习,基于眼底彩照和OCT图像构建双模态视网膜图像分类模型。
所述的双模态视网膜图像分类模型主要由一个FO网络、一个编码器Ff和一个分类器Cf共同构成。FO网络中,包含一个编码器Eo、一个分类器Co,以及一对生成器G和判别器D。该模型能够基于眼底彩照图像在保证分类准确率的同时实现多标签分类。
上述双模态视网膜图像分类模型的编码器Ef与FO网络中的编码器Eo采用ResNet-50作为主干网络,分别对输入的眼底彩照和OCT图像提取特征;双模态视网膜图像分类模型的分类器Cf与FO网络中的分类器Co采用以softmax激活的全连接神经网络;FO网络中的生成器G与判别器D采用修改后的CGAN网络中的生成器和判别器,修改后的网络去除了原始CGAN网络中生成器G用以生成图像的网络层,通过全连接层将提取到的特征展平,即生成器G仅输出由输入图像提取的特征向量;修改判别器D的输入层结构,使其接收特征向量和标签信息作为输入,即根据特征向量的维度来调整判别器D的输入层的大小。
眼底彩照图像和对应分类标签作为生成器G的输入,输出特征向量F2O_features,OCT图像经过编码器E0生成OCT图像特征向量OCT_features,将OCT_features及其对应的标签以及生成G生成的特征向量F2O_features作为判别器D的输入,输出判别其为OCT图像特征向量和正确对应标签的概率,即基于眼底图像生成伪OCT图像特征向量。
模型训练好后,只需将眼底彩照图像输入编码器Ef和FO网络中的生成器G,便能由分类器Cf输出该眼底彩照图像对应的预测分类结果,获得该结果的信息中包含了OCT图像信息。
步骤四、训练所述双模态视网膜图像分类模型。将视网膜OCT图像与眼底彩照作为所构建的视网膜图像分类网络的输入,以最小化损失函数为目标进行训练。
将眼底彩照图像和视网膜OCT图像输入FO网络,由FO网络中的生成器G输出特征向量F2O_features;同时眼底彩照输入编码器Ef,由编码器Ef输出眼底彩照特征向量FD_features。最后,将特征向量F2O_features和特征向量FD_features在经过特征融合后得到的特征向量输入分类器Cf,由分类器Cf输出预测分类标签。
在FO网络中,利用编码器Eo对OCT图像进行特征提取,获得特征向量OCT_features。将特征向量OCT_features输入分类器Co,获得由OCT图像特征得到的预测分类标签。分类器Co的损失函数LCO采用交叉熵损失。
分类器Co损失函数LCO反向传播更新编码器Eo的参数,直至损失函数LCO收敛。使用LCO收敛后所得的编码器Eo参数,由编码器Eo提取的OCT图像特征向量参与后续对抗学习过程,能够使编码器Eo提取的OCT图像视网膜特征更能反映对应标签的特定信息,提高整体网络的分类准确率。
眼底彩照和对应的分类标签作为生成器G的输入,生成的特征F2O_features与编码器Eo提取的特征OCT_features分别伴随其对应的分类标签作为判别器D的输入,由判别器D对二者进行区分。
在生成器G与判别器D进行对抗学习的过程中,判别器D会不断提升其判别能力,生成器G生成的特征F2O_features也将不断接近OCT图像的视网膜特征,最终形成由眼底彩照到OCT图像特征的映射。
判别器D判别其输入是否为真实的OCT图像特征,以及输入的特征向量与标签是否匹配,生成器G与判别器D可构成对抗损失函数:
其中,G(·)为生成器G的输出;D(·)为判别器D的输出;o是OCT图像的特征向量;f是眼底彩照图像;y是与输入特征向量相匹配的标签;为OCT图像特征向量服从概率分布pdata(o)的期望;/>为眼底彩照服从概率分布pdata(f)的期望。
对抗网络的优化方向是最小化生成器所生成的特征被判别器鉴别出来的概率,并最大化判别器能正确鉴别生成器所生成的特征的概率。可以将目标函数表示为:
表示求G使得目标函数最小化和求D使得目标函数最大化。
判别器不仅要判别输入的样本是否为真实的OCT图像特征向量,还要判别是否与输入的标签y相匹配,只有在二者匹配时,判别器才判定生成样本为真。
多次训练反复优化模型参数后,判断判别器D是否收敛:若收敛则由收敛后的生成器G生成的特征向量作为F2O_features,用于下一阶段分类器Cf的训练;若不收敛,则在判别器D收敛前不断更新生成器G的参数。
判断判别器D是否收敛的方法为:判断判别器D输出的概率值是否保持在某一概率阈值附近震荡。若判别器D的输出均在该概率阈值附近,则判定收敛;否则判定判别器D不收敛。
在判别器D收敛后,将编码器Ef输出的特征向量FD_features和FO网络中生成器G所输出的特征向量F2O_features采用向量拼接(concatenate)的方式进行特征融合。
融合后的特征向量具有映射到OCT图像特征的信息与眼底彩照本身的特征信息,将融合后的特征向量输入分类器Cf,分类器Cf采用以softmax激活的全连接神经网络,该全连接神经网络可输出分类标签的概率分布。
基于对抗学习框架,结合分类器Co的分类损失LCO和对抗损失LcGAN(D,G)对所述双模态视网膜图像分类模型进行联合优化,得到经过训练的双模态视网膜图像分类模型。
步骤五、模型的使用。将待分类的眼底彩照输入所述训练好的双模态视网膜图像分类模型,由生成器G与编码器Ef分别获取眼底彩照的F2O_features与FD_features,再由分类器Cf在二者特征融合后进行多分类标签的输出,获取病变类型预测结果。
本发明具有以下的特点和有益效果:
1、本发明提出的双模态视网膜图像分类模型,基于对抗学习的思想结合了两种模态的视网膜图像,构建从眼底彩照到视网膜OCT图像的特征的映射。本发明借助OCT设备在视网膜成像上的优势,用以增强眼底彩照对视网膜疾病的诊断能力,可以在未使用OCT图像的情况下,获得OCT图像与眼底彩照联合的诊断效果。鉴于目前OCT设备价格较高昂且阅片难度高,本发明结合两种模态的眼科影像进行基于眼底彩照的视网膜病变分类,可以有效提高视网膜疾病的早期筛检率。
2、本发明在通过结合OCT图像来提高分类准确率的同时,能实现多种疾病类型的分类,包括青光眼、白内障、年龄相关性黄斑病变和健康人眼等类型,扩大了模型的适用范围,便于临床上的应用。
3、本发明采用对抗学习的思想,通过对抗网络建立眼底彩照到OCT特征的映射,并结合两种模态图像的特征进行多种疾病的分类。借助从同一人眼所获取的两种模态的视网膜图像,使病变表现更为显著的OCT图像特征与眼底彩照形成映射,从而实现在使用眼底彩照进行多标签分类的同时达到双模态图像联合诊断时的分类准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图。
图2为本发明使用的双模态视网膜图像分类模型的结构图。
图3为本发明使用的双模态视网膜图像分类模型的F2O网络的结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供了一种基于对抗学习的双模态视网膜图像分类方法,用于实现以眼底彩照为主的视网膜疾病多标签分类方法,如图1所示,其包括以下步骤:
S1,采集训练样本图像。通过OCT设备与眼底照相机分别对不同视网膜疾病患者与健康人群采集其视网膜OCT图像与眼底彩照,并将其分为训练集与测试集。具体过程如下:
对患有白内障、青光眼、糖尿病性视网膜病变、年龄相关性黄斑病变等视网膜疾病的患者和健康人群分别获取视网膜OCT图像和眼底彩照,所采集的两种模态的视网膜图像包含多种疾病类型,且要对同一人分别采集其视网膜OCT图像和眼底彩照图像。
S2,训练样本的预处理。对所获取的视网膜OCT图像与眼底彩照进行预处理,具体过程如下:
对步骤S1得到的视网膜OCT图像和眼底彩照进行包括水平翻转、旋转、调整灰度直方图和亮度等在内的预处理。
水平翻转模拟对称的左眼和右眼,该处理可使利用数据集训练出来的模型适应左右眼。
旋转用于模拟图像中视网膜的不同角度,该处理可使利用数据集训练出来的模型鲁棒地对不同倾斜程度的眼底彩照进行分类。
调整灰度直方图和亮度可以让视网膜图像更适应人眼的观察。
S3,构建双模态视网膜图像分类模型。构建基于对抗学习的双模态视网膜图像分类模型。如图2所示,该模型主要包含一个FO网络,一个编码器Ef和一个分类器Cf共同构成,该双模态视网膜图像分类模型能够在保证分类准确率的同时实现多标签分类。
眼底彩照编码器Ef,用于由输入的眼底彩照获得眼底彩照的特征向量FD_features;
眼底彩照分类器Cf,用于对FD_features和F2O_features进行特征融合后得到的特征向量进行预测,输出分类结果,其中,特征向量F2O_features通过FO网络获得,FO网络的结构如图3所示,由一个编码器Eo,一个分类器Co,一个生成器G和一个判别器D构成。
OCT图像编码器Eo,用于获得OCT图像的特征向量OCT_features,其输入端为视网膜OCT图像;
OCT图像分类器Co,用于对OCT图像的特征向量OCT_features进行预测,输出分类结果;
生成器G,用于利用眼底彩照和对应的标签生成新的特征向量F2O_features;
判别器D,用于区分同一标签下OCT图像的特征OCT_features和生成器G生成的伪特征向量F2O_features;
上述双模态视网膜图像分类模型的编码器Ef与FO网络的编码器Eo采用ResNet-50作为主干网络,分别用于对输入的眼底彩照和OCT图像提取特征;分类器Cf与分类器Co采用以softmax激活的全连接神经网络;生成器G与判别器D采用修改后的CGAN网络中的生成器和判别器:原始的CGAN网络中生成器G接收图像与标签作为输入,并输出生成的图像,判别器D接收图像与标签作为输入,输出判别为真的概率值;本发明将CGAN网络加以修改,去除了生成器G中用以生成图像的网络层,通过全连接层将提取到的特征展平,即生成器G仅输出由输入图像提取的特征向量;修改判别器D的输入层结构,使其接收特征向量和标签信息作为输入,即根据特征向量的维度来调整判别器D的输入层的大小。
眼底彩照图像和对应分类标签作为生成器G的输入,生出器G输出的为含OCT图像特征的伪特征向量F2O_features,以Eo得到的OCT图像特征向量OCT_features和生成的特征向量F2O_features及对应分类标签作为判别器D的输入,输出判别F2O_features为OCT图像特征向量和正确对应标签的概率。
训练时,将眼底彩照图像与OCT图像输入所述构建好的双模态视网膜图像分类模型,分别由生成器G和编码器Ef输出特征向量F2O_features和特征向量FD_features,再将二者进行特征融合后输入分类器Cf,得到预测的疾病分类标签。
模型训练好后,只需将眼底彩照图像输入编码器Ef和FO网络中的生成器G,将获得的FD_features和F2O_features融合后,经由分类器Cf输出该眼底彩照图像对应的预测分类结果。
S4,模型的训练。将视网膜OCT图像与眼底彩照作为所构建的视网膜图像分类网络的输入,以最小化损失函数为目标进行训练。
如图2所示,眼底彩照分别输入编码器Ef和FO网络,获得特征向量FD_features和F2O_features;特征向量F2O_features与特征向量FD_features在经过特征融合后,输入分类器Cf,最终输出预测分类结果。FO网络基于对抗学习的思想,实现眼底彩照图像到OCT图像特征空间的映射,获得与眼底彩照匹配的OCT图像特征信息的特征向量F2O_features。
如图3所示,利用编码器Eo对OCT图像进行特征提取,获得特征向量OCT_features。将特征向量OCT_features输入分类器Co,获得由OCT图像特征得到的预测分类标签。分类器Co的损失函数LCO采用交叉熵损失。
分类器Co损失函数LCO反向传播更新编码器Eo的参数,直至损失函数LCO收敛。使用LCO收敛后所得的编码器Eo参数,由编码器Eo提取的OCT图像特征向量参与后续对抗学习过程,能够使编码器Eo提取的OCT图像中的视网膜特征更能反映对应标签的特定信息,提高整体网络的分类准确率。
眼底彩照和对应的分类标签作为生成器G的输入,生成的特征向量F2O_features与编码器Eo提取的特征向量OCT_features分别伴随其对应分类标签作为判别器D的输入,由判别器D对二者进行区分。
训练生成器G与判别器D的过程为:
固定生成器G,保持其参数不变,训练判别器D。判别器D的判别过程为:特征向量OCT_features与生成器G生成的特征向量F2O_features以及它们对应的分类标签作为判别器D的输入,判别器D输出判定其为OCT图像特征的概率值。训练过程具体为:
当输入为特征向量OCT_features及正确的分类标签时,判别器D理论上应输出“1”,则通过比较判别器D实际输出结果与理论输出结果之间的差值,采用反向传播更新判别器D的参数。
当输入为生成器G生成的特征向量F2O_features或者不匹配的分类标签时,判别器D理论上应输出“0”,则通过比较判别器D实际输出结果与理论输出结果之间的差值,采用反向传播算法对判别器参数进行更新。
接下来固定判别器D,保持其参数不变,训练生成器G。训练的目的是让生成器G所输出的特征向量F2O_features令判别器D无法将其与OCT_features区分,具体为:
将眼底彩照图像输入生成器G,生成特征向量F2O_features。将特征向量F2O_features与特征向量OCT_features以及对应的分类标签输入上一步训练所得到的判别器D中。此时的判别器D具备一定的鉴别能力,根据判别器D的输出,可以反映出生成器G生成的特征向量F2O_features与特征向量OCT_features的相似程度,由此反向传播更新生成器G的参数。
对训练集样本中的所有样本都重复上述训练生成器G与判别器D的步骤,多次训练反复优化模型参数。
在该对抗学习的过程中,判别器D会不断提升其判别能力,生成器G生成的特征F2O_features也将不断接近OCT图像的特征,最终形成由眼底彩照到OCT图像特征信息的映射。
判别器D判别其输入是否为真实的OCT图像特征,以及输入的特征向量与标签是否匹配,生成器G与判别器D可构成对抗损失函数:
其中,G(·)为生成器G的输出;D(·)为判别器D的输出;o是OCT图像的特征向量;f是眼底彩照图像;y是与输入特征向量相匹配的标签;为OCT图像特征向量服从概率分布Pdata(o)的期望;/>为眼底彩照服从概率分布pdata(f)的期望。
对抗网络的优化方向是最小化生成器所生成的特征被判别器鉴别出来的概率,并最大化判别器能正确鉴别生成器所生成的特征的概率。可以将目标函数表示为:
表示求G使得目标函数最小化和求D使得目标函数最大化。
判别器不仅要判别输入的样本是否为真实的OCT图像特征向量,还要判别是否与输入的标签y相匹配,只有在二者匹配时,判别器才判定生成样本为真。
接着判断判别器D是否收敛:若收敛则将由生成器G生成的特征向量作为F2O_features,用于下一阶段分类器Cf的训练;若不收敛,则在判别器D收敛前不断更新生成器G的参数。
判断判别器D是否收敛的方法为:判断判别器D输出的概率值是否保持在0.5附近。理论上,当判别器D无法判别其输入数据的真假,即输出的判别概率都为0.5时,认为生成器与判别器网络达到纳什均衡。则当判别器D输出的概率值趋近于0.5,且之后在这一数值附近震荡时,可认为判别器D收敛;否则判定判别器D不收敛。
在判别器D收敛后,将编码器Ef输出的特征向量FD_features和FO网络中生成器G所输出的特征向量F2O_features采用向量拼接(concatenate)的方式进行特征融合。
融合后的特征向量具有映射到OCT图像特征的信息与眼底彩照本身的特征信息,将融合后的特征向量输入分类器Cf,分类器Cf采用以softmax激活的全连接神经网络,该全连接神经网络可输出分类标签的概率分布。
基于对抗学习框架,结合分类器Co的分类损失LCO和对抗损失LcGAN(D,G)对所述双模态视网膜图像分类模型进行联合优化,得到经过训练的双模态视网膜图像分类模型。
S5,模型的使用。将待分类的眼底彩照输入所述训练好的双模态视网膜图像分类模型,由生成器G与编码器Ef分别获取眼底彩照的F2O_features与FD_features,两种特征融合后再由分类器Cf进行多分类标签的输出,获取病变类型预测结果。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (8)
1.一种基于对抗学习的双模态眼底图像分类方法,其特征在于,包括如下步骤:
S1、通过OCT设备与眼底照相机分别对不同视网膜疾病患者与健康人群采集其视网膜OCT图像与眼底彩照,构建数据集并将其分为训练集与测试集;
S2、对数据集进行预处理;
S3、构建双模态视网膜图像分类模型
所述双模态视网膜图像分类模型包括一个FO网络、一个编码器Ef和一个分类器Cf,所述FO网络中包含一个编码器Eo、一个分类器Co,以及一对生成器G和判别器D;
S4、双模态视网膜图像分类模型的训练
将预处理后的训练集中的视网膜OCT图像与眼底彩照作为所构建的视网膜图像分类网络的输入,利用编码器Eo对OCT图像进行特征提取,获得特征向量OCT_features,将特征向量OCT_features输入分类器Co,获得由OCT图像特征得到的预测分类标签;
眼底彩照和对应的分类标签作为所述的FO网络生成器G的输入,生成的特征F2O_features与编码器Eo提取的特征OCT_features分别伴随其对应的分类标签作为所述的FO网络判别器D的输入,由判别器D对OCT_features和F2O_features进行区分;
在判别器D收敛后,将编码器Ef输出的特征向量FD_features和FO网络中生成器G所输出的特征向量F2O_features采用向量拼接的方式进行特征融合;
融合后的特征向量由分类器Cf输出预测分类标签;
S5、应用训练好的双模态视网膜图像分类模型,将待分类的眼底彩照图像输入至所述训练好的双模态视网膜图像分类模型,由该模型的FO网络中的生成器G生成含OCT特征的特征向量F2O_features;同时由该模型的编码器Ef输出眼底彩照特征向量FD_features,最后,将特征向量F2O_features和特征向量FD_features在经过特征融合后得到的特征向量输入分类器Cf,由分类器Cf输出预测分类标签。
2.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法,其特征在于,所述步骤S2中预处理方法包括水平翻转、旋转、调整灰度直方图和亮度。
3.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法,其特征在于,所述编码器Ef和编码器Eo均采用ResNet-50作为主干网络,分别对输入的眼底彩照和视网膜OCT图像提取特征。
4.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法,其特征在于,所述分类器Cf和分类器Co采用以softmax激活的全连接神经网络。
5.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法,其特征在于,所述生成器G采用CGAN网络中的原始生成器,并将原始生成器中的用以生成图像的网络层替换为全连接层;所述判别器D采用CGAN网络中的原始判别器,所述判别器D中的输入层根据特征向量的维度来调整判别器D的输入层。
6.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法,其特征在于,所述分类器Co的损失函数LCO采用交叉熵损失,所述的分类器Co损失函数LCO反向传播更新编码器Eo的参数,直至损失函数LCO收敛,使用LCO收敛后所得的编码器Eo参数。
7.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法,其特征在于,所述生成器G与判别器D的优化方法:
生成器G与判别器D构成对抗损失函数:
其中,G(·)为生成器G的输出;D(·)为判别器D的输出;o是OCT图像的特征向量;f是眼底彩照图像;y是与输入特征向量相匹配的标签;为OCT图像特征向量服从概率分布pdata(o)的期望;/>为眼底彩照服从概率分布pdata(f)的期望;
所述的FO网络判别器D不仅要判别输入的样本是否为真实的OCT图像特征向量,还要判别是否与输入的标签y相匹配,只有在二者匹配时,判别器D才判定生成样本为真;
多次训练反复优化模型参数后,判断所述的FO网络判别器D是否收敛:若收敛则由收敛后的生成器G生成的特征向量作为F2O_features,用于下一阶段分类器Cf的训练;若不收敛,则在判别器D收敛前不断更新生成器G的参数;
判断判别器D是否收敛的方法为:判断判别器D输出的概率值是否保持在某一概率阈值附近震荡,若判别器D的输出均在该概率阈值附近,则判定收敛;否则判定判别器D不收敛。
8.根据权利要求7所述的一种基于对抗学习的双模态眼底图像分类方法,其特征在于,所述抗损失函数的优化方向是最小化生成器所生成的特征被判别器鉴别出来的概率,并最大化判别器能正确鉴别生成器所生成的特征的概率,将目标函数表示为:
表示求G使得目标函数最小化和求D使得目标函数最大化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311163217.XA CN117237711A (zh) | 2023-09-11 | 2023-09-11 | 一种基于对抗学习的双模态眼底图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311163217.XA CN117237711A (zh) | 2023-09-11 | 2023-09-11 | 一种基于对抗学习的双模态眼底图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117237711A true CN117237711A (zh) | 2023-12-15 |
Family
ID=89090435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311163217.XA Pending CN117237711A (zh) | 2023-09-11 | 2023-09-11 | 一种基于对抗学习的双模态眼底图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117237711A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746167A (zh) * | 2024-02-20 | 2024-03-22 | 四川大学 | 口腔全景片影像摆位错误分类模型训练方法及分类方法 |
-
2023
- 2023-09-11 CN CN202311163217.XA patent/CN117237711A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746167A (zh) * | 2024-02-20 | 2024-03-22 | 四川大学 | 口腔全景片影像摆位错误分类模型训练方法及分类方法 |
CN117746167B (zh) * | 2024-02-20 | 2024-04-19 | 四川大学 | 口腔全景片影像摆位错误分类模型训练方法及分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11989877B2 (en) | Method and system for analysing images of a retina | |
Akbar et al. | Automated techniques for blood vessels segmentation through fundus retinal images: A review | |
Li et al. | Deep learning-based automated detection of glaucomatous optic neuropathy on color fundus photographs | |
Kauppi | Eye fundus image analysis for automatic detection of diabetic retinopathy | |
CN111461218B (zh) | 糖网病眼底图像的样本数据标注系统 | |
CN111428072A (zh) | 眼科多模态影像的检索方法、装置、服务器及存储介质 | |
CN111833334A (zh) | 一种基于孪生网络架构的眼底影像特征处理分析方法 | |
CN113177916A (zh) | 一种基于少样本学习方法的轻微高血压眼底辨别模型 | |
CN117237711A (zh) | 一种基于对抗学习的双模态眼底图像分类方法 | |
Hassan et al. | Exploiting the transferability of deep learning systems across multi-modal retinal scans for extracting retinopathy lesions | |
Kumar et al. | A multi-thresholding-based discriminative neural classifier for detection of retinoblastoma using CNN models | |
Chen et al. | Automated diagnosis of age‐related macular degeneration using multi‐modal vertical plane feature fusion via deep learning | |
Kumar et al. | Mdcf: Multi-disease classification framework on fundus image using ensemble cnn models | |
Hong et al. | A novel hierarchical deep learning framework for diagnosing multiple visual impairment diseases in the clinical environment | |
Tsai et al. | Diagnosis of polypoidal choroidal vasculopathy from fluorescein angiography using deep learning | |
Devi et al. | A deep transfer learning approach for identification of diabetic retinopathy using data augmentation | |
Padalia et al. | A CNN-LSTM combination network for cataract detection using eye fundus images | |
Galveia et al. | Computer aided diagnosis in ophthalmology: Deep learning applications | |
Thanh et al. | A Real-Time Classification Of Glaucoma from Retinal Fundus Images Using AI Technology | |
Matta et al. | Meta learning for anomaly detection in fundus photographs | |
Sangamesh et al. | A New Approach to Recognize a Patient with Diabetic Retinopathy using Pre-trained Deep Neural Network EfficientNetB0 | |
Sridevi et al. | Improvised Detection of Diabetic Retinopathy Using Fast R CNN | |
Bhardwaj et al. | A computational framework for diabetic retinopathy severity grading categorization using ophthalmic image processing | |
Ali et al. | Classifying Three Stages of Cataract Disease using CNN | |
EP4374773A1 (en) | Method and system for diagnosis of cataract, using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |