CN117237711A

CN117237711A - 一种基于对抗学习的双模态眼底图像分类方法

Info

Publication number: CN117237711A
Application number: CN202311163217.XA
Authority: CN
Inventors: 范姗慧; 廖姝懿; 厉力华; 梁舒心; 王志文
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-12-15

Abstract

本发明公开了一种基于对抗学习的双模态眼底图像分类方法，包括如下步骤：S1、构建数据集并将其分为训练集与测试集；S2、对数据集进行预处理；S3、构建双模态视网膜图像分类模型；S4、双模态视网膜图像分类模型的训练；S5、应用训练好的双模态视网膜图像分类模型，输出预测分类标签。该方法在实现多标签分类的同时，通过融合OCT图像的特征提高分类的准确率。

Description

一种基于对抗学习的双模态眼底图像分类方法

技术领域

本发明涉及人工智能技术领域，具体指一种基于对抗学习的双模态眼底图像分类方法。

背景技术

眼科影像技术，如光学相干断层扫描技术(Optical Coherence Tomography,OCT)、眼底彩照(Fundus Photograph)等，是临床常见的检查手段，对于视网膜疾病、青光眼等的诊断具有非常重要的意义。眼底彩照主要利用眼底照相机获取眼底视网膜图像，通过观察眼底表面是否存在如出血、渗出、瘢痕等异常进行疾病诊断。OCT通过检测视网膜组织不同深度层面对入射弱相干光的背向反射或散射信号，获得组织横截面图像，进一步可构建得到视网膜三维结构图像，因此，通过OCT检查可以进一步明确患者是否存在如黄斑裂孔、黄斑劈裂等眼底病变，同时也能发现眼底照相机等不易检测到的视网膜早期病灶。

虽然OCT检查能够快速准确地反映眼底情况，但一台OCT设备的价格往往高达百万元，患者在医院进行一次OCT检查需要200元左右；而眼底彩照的设备则更为低廉易得，在各地区各级医院的普及率也更高。对于小型医院、诊所以及医疗资源较差的地区，患者难以通过OCT设备诊断疾病。同时，OCT设备操作步骤更为复杂、阅片依赖于高水平医生，限制了OCT设备的临床应用普及。

为方便患者就诊、推进医疗资源平衡，人工智能技术已被广泛应用于辅助诊断研究中。申请号为202180003036.3的专利公开了一种基于深度学习的用于诊断眼疾的眼底影像分类方法，该发明可以对眼底照相机获取的视网膜眼底图像进行分类。申请号为202011450625.X的专利公开了一种通过集成学习策略，在训练分支神经网络模型后进行模型融合的眼底照片分类方法，可解决现有慢性肾病检测中基于眼底照片的分类方法效率低且准确率低的技术问题，但该方法主要针对慢性肾病所致的视网膜病变，适用范围较小。申请号为202210563044.X的专利公开了一种多标签眼底图像分类方法，可对眼底图像进行8种类型的分类。

但是，以上几种辅助诊断研究往往是针对单一模态的病变自动识别或者是针对某种特定性疾病的分类检查，为进一步提高和拓展眼底疾病的早期筛查率和筛查范围，往往需要结合多种模态影像结果，如同时使用眼底图像与OCT图像进行诊断，才能保证准确率。但基于以上提出的OCT设备对操作人员的高要求以及成本的限制。

因此，亟需一种以低成本的眼底彩照为主的但又能实现OCT与眼底彩照联合诊断效果的眼底疾病分类方法，具有较强的现实意义。

发明内容

本发明针对上述现有技术中的不足，提供一种基于对抗学习的以眼底彩照为主的视网膜分类方法，在实现多标签分类的同时，通过融合OCT图像的特征提高分类的准确率。

为了解决上述技术问题，本发明的技术方案为：

一种基于对抗学习的以眼底彩照为主的视网膜分类方法，包括如下步骤：

步骤一、采集训练样本图像。通过OCT设备与眼底照相机分别对不同视网膜疾病患者与健康人群采集其视网膜OCT图像与眼底彩照，并将其分为训练集与测试集。

步骤二、训练样本的预处理。对所获取的视网膜OCT图像与眼底彩照进行预处理。

步骤三、构建双模态视网膜图像分类模型。基于对抗学习，基于眼底彩照和OCT图像构建双模态视网膜图像分类模型。

所述的双模态视网膜图像分类模型主要由一个FO网络、一个编码器F_f和一个分类器C_f共同构成。FO网络中，包含一个编码器E_o、一个分类器C_o，以及一对生成器G和判别器D。该模型能够基于眼底彩照图像在保证分类准确率的同时实现多标签分类。

上述双模态视网膜图像分类模型的编码器E_f与FO网络中的编码器E_o采用ResNet-50作为主干网络，分别对输入的眼底彩照和OCT图像提取特征；双模态视网膜图像分类模型的分类器C_f与FO网络中的分类器C_o采用以softmax激活的全连接神经网络；FO网络中的生成器G与判别器D采用修改后的CGAN网络中的生成器和判别器，修改后的网络去除了原始CGAN网络中生成器G用以生成图像的网络层，通过全连接层将提取到的特征展平，即生成器G仅输出由输入图像提取的特征向量；修改判别器D的输入层结构，使其接收特征向量和标签信息作为输入，即根据特征向量的维度来调整判别器D的输入层的大小。

眼底彩照图像和对应分类标签作为生成器G的输入，输出特征向量F2O_features，OCT图像经过编码器E₀生成OCT图像特征向量OCT_features，将OCT_features及其对应的标签以及生成G生成的特征向量F2O_features作为判别器D的输入，输出判别其为OCT图像特征向量和正确对应标签的概率，即基于眼底图像生成伪OCT图像特征向量。

模型训练好后，只需将眼底彩照图像输入编码器E_f和FO网络中的生成器G，便能由分类器C_f输出该眼底彩照图像对应的预测分类结果，获得该结果的信息中包含了OCT图像信息。

步骤四、训练所述双模态视网膜图像分类模型。将视网膜OCT图像与眼底彩照作为所构建的视网膜图像分类网络的输入，以最小化损失函数为目标进行训练。

将眼底彩照图像和视网膜OCT图像输入FO网络，由FO网络中的生成器G输出特征向量F2O_features；同时眼底彩照输入编码器E_f，由编码器E_f输出眼底彩照特征向量FD_features。最后，将特征向量F2O_features和特征向量FD_features在经过特征融合后得到的特征向量输入分类器C_f，由分类器C_f输出预测分类标签。

在FO网络中，利用编码器E_o对OCT图像进行特征提取，获得特征向量OCT_features。将特征向量OCT_features输入分类器C_o，获得由OCT图像特征得到的预测分类标签。分类器C_o的损失函数L_CO采用交叉熵损失。

分类器C_o损失函数L_CO反向传播更新编码器E_o的参数，直至损失函数L_CO收敛。使用L_CO收敛后所得的编码器E_o参数，由编码器E_o提取的OCT图像特征向量参与后续对抗学习过程，能够使编码器E_o提取的OCT图像视网膜特征更能反映对应标签的特定信息，提高整体网络的分类准确率。

眼底彩照和对应的分类标签作为生成器G的输入，生成的特征F2O_features与编码器E_o提取的特征OCT_features分别伴随其对应的分类标签作为判别器D的输入，由判别器D对二者进行区分。

在生成器G与判别器D进行对抗学习的过程中，判别器D会不断提升其判别能力，生成器G生成的特征F2O_features也将不断接近OCT图像的视网膜特征，最终形成由眼底彩照到OCT图像特征的映射。

判别器D判别其输入是否为真实的OCT图像特征，以及输入的特征向量与标签是否匹配，生成器G与判别器D可构成对抗损失函数：

其中，G(·)为生成器G的输出；D(·)为判别器D的输出；o是OCT图像的特征向量；f是眼底彩照图像；y是与输入特征向量相匹配的标签；为OCT图像特征向量服从概率分布p_data(o)的期望；/>为眼底彩照服从概率分布p_data(f)的期望。

对抗网络的优化方向是最小化生成器所生成的特征被判别器鉴别出来的概率，并最大化判别器能正确鉴别生成器所生成的特征的概率。可以将目标函数表示为：

表示求G使得目标函数最小化和求D使得目标函数最大化。

判别器不仅要判别输入的样本是否为真实的OCT图像特征向量，还要判别是否与输入的标签y相匹配，只有在二者匹配时，判别器才判定生成样本为真。

多次训练反复优化模型参数后，判断判别器D是否收敛：若收敛则由收敛后的生成器G生成的特征向量作为F2O_features，用于下一阶段分类器C_f的训练；若不收敛，则在判别器D收敛前不断更新生成器G的参数。

判断判别器D是否收敛的方法为：判断判别器D输出的概率值是否保持在某一概率阈值附近震荡。若判别器D的输出均在该概率阈值附近，则判定收敛；否则判定判别器D不收敛。

在判别器D收敛后，将编码器E_f输出的特征向量FD_features和FO网络中生成器G所输出的特征向量F2O_features采用向量拼接(concatenate)的方式进行特征融合。

融合后的特征向量具有映射到OCT图像特征的信息与眼底彩照本身的特征信息，将融合后的特征向量输入分类器C_f，分类器C_f采用以softmax激活的全连接神经网络，该全连接神经网络可输出分类标签的概率分布。

基于对抗学习框架，结合分类器C_o的分类损失L_CO和对抗损失L_cGAN(D，G)对所述双模态视网膜图像分类模型进行联合优化，得到经过训练的双模态视网膜图像分类模型。

步骤五、模型的使用。将待分类的眼底彩照输入所述训练好的双模态视网膜图像分类模型，由生成器G与编码器E_f分别获取眼底彩照的F2O_features与FD_features，再由分类器C_f在二者特征融合后进行多分类标签的输出，获取病变类型预测结果。

本发明具有以下的特点和有益效果：

1、本发明提出的双模态视网膜图像分类模型，基于对抗学习的思想结合了两种模态的视网膜图像，构建从眼底彩照到视网膜OCT图像的特征的映射。本发明借助OCT设备在视网膜成像上的优势，用以增强眼底彩照对视网膜疾病的诊断能力，可以在未使用OCT图像的情况下，获得OCT图像与眼底彩照联合的诊断效果。鉴于目前OCT设备价格较高昂且阅片难度高，本发明结合两种模态的眼科影像进行基于眼底彩照的视网膜病变分类，可以有效提高视网膜疾病的早期筛检率。

2、本发明在通过结合OCT图像来提高分类准确率的同时，能实现多种疾病类型的分类，包括青光眼、白内障、年龄相关性黄斑病变和健康人眼等类型，扩大了模型的适用范围，便于临床上的应用。

3、本发明采用对抗学习的思想，通过对抗网络建立眼底彩照到OCT特征的映射，并结合两种模态图像的特征进行多种疾病的分类。借助从同一人眼所获取的两种模态的视网膜图像，使病变表现更为显著的OCT图像特征与眼底彩照形成映射，从而实现在使用眼底彩照进行多标签分类的同时达到双模态图像联合诊断时的分类准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明使用的双模态视网膜图像分类模型的结构图。

图3为本发明使用的双模态视网膜图像分类模型的F2O网络的结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提供了一种基于对抗学习的双模态视网膜图像分类方法，用于实现以眼底彩照为主的视网膜疾病多标签分类方法，如图1所示，其包括以下步骤：

S1，采集训练样本图像。通过OCT设备与眼底照相机分别对不同视网膜疾病患者与健康人群采集其视网膜OCT图像与眼底彩照，并将其分为训练集与测试集。具体过程如下：

对患有白内障、青光眼、糖尿病性视网膜病变、年龄相关性黄斑病变等视网膜疾病的患者和健康人群分别获取视网膜OCT图像和眼底彩照，所采集的两种模态的视网膜图像包含多种疾病类型，且要对同一人分别采集其视网膜OCT图像和眼底彩照图像。

S2，训练样本的预处理。对所获取的视网膜OCT图像与眼底彩照进行预处理，具体过程如下：

对步骤S1得到的视网膜OCT图像和眼底彩照进行包括水平翻转、旋转、调整灰度直方图和亮度等在内的预处理。

水平翻转模拟对称的左眼和右眼，该处理可使利用数据集训练出来的模型适应左右眼。

旋转用于模拟图像中视网膜的不同角度，该处理可使利用数据集训练出来的模型鲁棒地对不同倾斜程度的眼底彩照进行分类。

调整灰度直方图和亮度可以让视网膜图像更适应人眼的观察。

S3，构建双模态视网膜图像分类模型。构建基于对抗学习的双模态视网膜图像分类模型。如图2所示，该模型主要包含一个FO网络，一个编码器E_f和一个分类器C_f共同构成，该双模态视网膜图像分类模型能够在保证分类准确率的同时实现多标签分类。

眼底彩照编码器E_f，用于由输入的眼底彩照获得眼底彩照的特征向量FD_features；

眼底彩照分类器C_f，用于对FD_features和F2O_features进行特征融合后得到的特征向量进行预测，输出分类结果，其中，特征向量F2O_features通过FO网络获得，FO网络的结构如图3所示，由一个编码器E_o，一个分类器C_o，一个生成器G和一个判别器D构成。

OCT图像编码器E_o，用于获得OCT图像的特征向量OCT_features，其输入端为视网膜OCT图像；

OCT图像分类器C_o，用于对OCT图像的特征向量OCT_features进行预测，输出分类结果；

生成器G，用于利用眼底彩照和对应的标签生成新的特征向量F2O_features；

判别器D，用于区分同一标签下OCT图像的特征OCT_features和生成器G生成的伪特征向量F2O_features；

上述双模态视网膜图像分类模型的编码器E_f与FO网络的编码器E_o采用ResNet-50作为主干网络，分别用于对输入的眼底彩照和OCT图像提取特征；分类器C_f与分类器C_o采用以softmax激活的全连接神经网络；生成器G与判别器D采用修改后的CGAN网络中的生成器和判别器：原始的CGAN网络中生成器G接收图像与标签作为输入，并输出生成的图像，判别器D接收图像与标签作为输入，输出判别为真的概率值；本发明将CGAN网络加以修改，去除了生成器G中用以生成图像的网络层，通过全连接层将提取到的特征展平，即生成器G仅输出由输入图像提取的特征向量；修改判别器D的输入层结构，使其接收特征向量和标签信息作为输入，即根据特征向量的维度来调整判别器D的输入层的大小。

眼底彩照图像和对应分类标签作为生成器G的输入，生出器G输出的为含OCT图像特征的伪特征向量F2O_features，以E_o得到的OCT图像特征向量OCT_features和生成的特征向量F2O_features及对应分类标签作为判别器D的输入，输出判别F2O_features为OCT图像特征向量和正确对应标签的概率。

训练时，将眼底彩照图像与OCT图像输入所述构建好的双模态视网膜图像分类模型，分别由生成器G和编码器E_f输出特征向量F2O_features和特征向量FD_features，再将二者进行特征融合后输入分类器C_f，得到预测的疾病分类标签。

模型训练好后，只需将眼底彩照图像输入编码器E_f和FO网络中的生成器G，将获得的FD_features和F2O_features融合后，经由分类器C_f输出该眼底彩照图像对应的预测分类结果。

S4，模型的训练。将视网膜OCT图像与眼底彩照作为所构建的视网膜图像分类网络的输入，以最小化损失函数为目标进行训练。

如图2所示，眼底彩照分别输入编码器E_f和FO网络，获得特征向量FD_features和F2O_features；特征向量F2O_features与特征向量FD_features在经过特征融合后，输入分类器C_f，最终输出预测分类结果。FO网络基于对抗学习的思想，实现眼底彩照图像到OCT图像特征空间的映射，获得与眼底彩照匹配的OCT图像特征信息的特征向量F2O_features。

如图3所示，利用编码器E_o对OCT图像进行特征提取，获得特征向量OCT_features。将特征向量OCT_features输入分类器C_o，获得由OCT图像特征得到的预测分类标签。分类器C_o的损失函数L_CO采用交叉熵损失。

分类器C_o损失函数L_CO反向传播更新编码器E_o的参数，直至损失函数L_CO收敛。使用L_CO收敛后所得的编码器E_o参数，由编码器E_o提取的OCT图像特征向量参与后续对抗学习过程，能够使编码器E_o提取的OCT图像中的视网膜特征更能反映对应标签的特定信息，提高整体网络的分类准确率。

眼底彩照和对应的分类标签作为生成器G的输入，生成的特征向量F2O_features与编码器E_o提取的特征向量OCT_features分别伴随其对应分类标签作为判别器D的输入，由判别器D对二者进行区分。

训练生成器G与判别器D的过程为：

固定生成器G，保持其参数不变，训练判别器D。判别器D的判别过程为：特征向量OCT_features与生成器G生成的特征向量F2O_features以及它们对应的分类标签作为判别器D的输入，判别器D输出判定其为OCT图像特征的概率值。训练过程具体为：

当输入为特征向量OCT_features及正确的分类标签时，判别器D理论上应输出“1”，则通过比较判别器D实际输出结果与理论输出结果之间的差值，采用反向传播更新判别器D的参数。

当输入为生成器G生成的特征向量F2O_features或者不匹配的分类标签时，判别器D理论上应输出“0”，则通过比较判别器D实际输出结果与理论输出结果之间的差值，采用反向传播算法对判别器参数进行更新。

接下来固定判别器D，保持其参数不变，训练生成器G。训练的目的是让生成器G所输出的特征向量F2O_features令判别器D无法将其与OCT_features区分，具体为：

将眼底彩照图像输入生成器G，生成特征向量F2O_features。将特征向量F2O_features与特征向量OCT_features以及对应的分类标签输入上一步训练所得到的判别器D中。此时的判别器D具备一定的鉴别能力，根据判别器D的输出，可以反映出生成器G生成的特征向量F2O_features与特征向量OCT_features的相似程度，由此反向传播更新生成器G的参数。

对训练集样本中的所有样本都重复上述训练生成器G与判别器D的步骤，多次训练反复优化模型参数。

在该对抗学习的过程中，判别器D会不断提升其判别能力，生成器G生成的特征F2O_features也将不断接近OCT图像的特征，最终形成由眼底彩照到OCT图像特征信息的映射。

表示求G使得目标函数最小化和求D使得目标函数最大化。

接着判断判别器D是否收敛：若收敛则将由生成器G生成的特征向量作为F2O_features，用于下一阶段分类器C_f的训练；若不收敛，则在判别器D收敛前不断更新生成器G的参数。

判断判别器D是否收敛的方法为：判断判别器D输出的概率值是否保持在0.5附近。理论上，当判别器D无法判别其输入数据的真假，即输出的判别概率都为0.5时，认为生成器与判别器网络达到纳什均衡。则当判别器D输出的概率值趋近于0.5，且之后在这一数值附近震荡时，可认为判别器D收敛；否则判定判别器D不收敛。

S5，模型的使用。将待分类的眼底彩照输入所述训练好的双模态视网膜图像分类模型，由生成器G与编码器E_f分别获取眼底彩照的F2O_features与FD_features，两种特征融合后再由分类器C_f进行多分类标签的输出，获取病变类型预测结果。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于对抗学习的双模态眼底图像分类方法，其特征在于，包括如下步骤：

S1、通过OCT设备与眼底照相机分别对不同视网膜疾病患者与健康人群采集其视网膜OCT图像与眼底彩照，构建数据集并将其分为训练集与测试集；

S2、对数据集进行预处理；

S3、构建双模态视网膜图像分类模型

所述双模态视网膜图像分类模型包括一个FO网络、一个编码器E_f和一个分类器C_f，所述FO网络中包含一个编码器E_o、一个分类器C_o，以及一对生成器G和判别器D；

S4、双模态视网膜图像分类模型的训练

将预处理后的训练集中的视网膜OCT图像与眼底彩照作为所构建的视网膜图像分类网络的输入，利用编码器E_o对OCT图像进行特征提取，获得特征向量OCT_features，将特征向量OCT_features输入分类器C_o，获得由OCT图像特征得到的预测分类标签；

眼底彩照和对应的分类标签作为所述的FO网络生成器G的输入，生成的特征F2O_features与编码器E_o提取的特征OCT_features分别伴随其对应的分类标签作为所述的FO网络判别器D的输入，由判别器D对OCT_features和F2O_features进行区分；

在判别器D收敛后，将编码器E_f输出的特征向量FD_features和FO网络中生成器G所输出的特征向量F2O_features采用向量拼接的方式进行特征融合；

融合后的特征向量由分类器C_f输出预测分类标签；

S5、应用训练好的双模态视网膜图像分类模型，将待分类的眼底彩照图像输入至所述训练好的双模态视网膜图像分类模型，由该模型的FO网络中的生成器G生成含OCT特征的特征向量F2O_features；同时由该模型的编码器E_f输出眼底彩照特征向量FD_features，最后，将特征向量F2O_features和特征向量FD_features在经过特征融合后得到的特征向量输入分类器C_f，由分类器C_f输出预测分类标签。

2.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法，其特征在于，所述步骤S2中预处理方法包括水平翻转、旋转、调整灰度直方图和亮度。

3.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法，其特征在于，所述编码器E_f和编码器E_o均采用ResNet-50作为主干网络，分别对输入的眼底彩照和视网膜OCT图像提取特征。

4.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法，其特征在于，所述分类器C_f和分类器C_o采用以softmax激活的全连接神经网络。

5.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法，其特征在于，所述生成器G采用CGAN网络中的原始生成器，并将原始生成器中的用以生成图像的网络层替换为全连接层；所述判别器D采用CGAN网络中的原始判别器，所述判别器D中的输入层根据特征向量的维度来调整判别器D的输入层。

6.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法，其特征在于，所述分类器C_o的损失函数L_CO采用交叉熵损失，所述的分类器C_o损失函数L_CO反向传播更新编码器E_o的参数，直至损失函数L_CO收敛，使用L_CO收敛后所得的编码器E_o参数。

7.根据权利要求1所述的一种基于对抗学习的双模态眼底图像分类方法，其特征在于，所述生成器G与判别器D的优化方法：

生成器G与判别器D构成对抗损失函数：

其中，G(·)为生成器G的输出；D(·）为判别器D的输出；o是OCT图像的特征向量；f是眼底彩照图像；y是与输入特征向量相匹配的标签；为OCT图像特征向量服从概率分布p_data(o)的期望；/>为眼底彩照服从概率分布p_data(f)的期望；

所述的FO网络判别器D不仅要判别输入的样本是否为真实的OCT图像特征向量，还要判别是否与输入的标签y相匹配，只有在二者匹配时，判别器D才判定生成样本为真；

多次训练反复优化模型参数后，判断所述的FO网络判别器D是否收敛：若收敛则由收敛后的生成器G生成的特征向量作为F2O_features，用于下一阶段分类器C_f的训练；若不收敛，则在判别器D收敛前不断更新生成器G的参数；

判断判别器D是否收敛的方法为：判断判别器D输出的概率值是否保持在某一概率阈值附近震荡，若判别器D的输出均在该概率阈值附近，则判定收敛；否则判定判别器D不收敛。

8.根据权利要求7所述的一种基于对抗学习的双模态眼底图像分类方法，其特征在于，所述抗损失函数的优化方向是最小化生成器所生成的特征被判别器鉴别出来的概率，并最大化判别器能正确鉴别生成器所生成的特征的概率，将目标函数表示为：

表示求G使得目标函数最小化和求D使得目标函数最大化。