CN115496954A

CN115496954A - 眼底图像分类模型构建方法、设备及介质

Info

Publication number: CN115496954A
Application number: CN202211366862.7A
Authority: CN
Inventors: 冯新星; 陈燕燕
Original assignee: Fuwai Hospital of CAMS and PUMC
Current assignee: Fuwai Hospital of CAMS and PUMC
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2022-12-20
Anticipated expiration: 2042-11-03
Also published as: CN115496954B

Abstract

本发明实施例公开了一种眼底图像分类模型构建方法、设备及介质。其中，方法包括：获取待训练的眼底图像分类模型，其中，所述模型包括卷积层、第一全连接层和第二全连接层，所述卷积层和第一全连接层用于特征提取，所述第二全连接层用于分类；利用Image Net数据集，对所述卷积层和第一全连接层进行预训练；由标注好类型的眼底图像生成样本集，采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练；冻结二次训练后的卷积层，利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调，得到训练好的眼底图像分类模型。本实施例提高模型的准确度和鲁棒性。

Description

眼底图像分类模型构建方法、设备及介质

技术领域

本发明实施例涉及智能交通领域，尤其涉及一种眼底图像分类模型构建方法、设备及介质。

背景技术

糖尿病视网膜病变是糖尿病最常见的微血管并发症之一，根据眼底图像进行早期筛查和识别可以效降低风险。然而，常规筛查是一项人工密集型工作。

目前已经提出了许多机器学习算法来构建眼底图像的自动分类模型，例如专利CN114612389A和CN114419377A。但这些模型的分类准确度往往对训练参数非常敏感，导致模型的鲁棒性差。

发明内容

本发明实施例提供一种眼底图像分类模型构建方法、设备及介质，以提高模型的准确度和鲁棒性。

第一方面，本发明实施例提供了一种眼底图像分类模型构建方法，包括：

获取待训练的眼底图像分类模型，其中，所述模型包括卷积层、第一全连接层和第二全连接层，所述卷积层和第一全连接层用于特征提取，所述第二全连接层用于分类；

利用Image Net数据集，对所述卷积层和第一全连接层进行预训练；

由标注好类型的眼底图像生成样本集，采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练；

冻结二次训练后的卷积层，利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调，得到训练好的眼底图像分类模型。

第二方面，本发明实施例提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的眼底图像分类模型构建方法。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的眼底图像分类模型构建方法。

本发明实施例基于标记的眼底图像和深度学习方法，建立了眼底图像的二分类模型。首先通过ImageNet数据集对模型进行预训练，再基于预训练后的模型利用类内相似、类间差异的损失函数，对特征提取层继续进行二次训练，实现了迁移学习和监督对比学习；最后将卷积层的参数冻结，对全连接层的参数进行微调，完成分类阶段的三次训练。其中，迁移学习加快了模型的收敛速度，并具有改进性能的潜力；监督学习和训练样本中的增强数据，共同提高了模型的分类精度和鲁棒性；分类阶段的训练则保证了模型输出的准确性。整个方法将模型训练划分预训练、二次训练和三次训练三个阶段，逐步保证特征提取层的准确度和鲁棒性，以及分类层的准确度和鲁棒性，使得模型在分类问题上表现出优异的性能，且充分利用上一阶段的训练成果，加快本阶段的收敛速度，避免了样本数据对模型的反复干扰，提高了整个模型构建的效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种眼底图像分类模型构建方法的流程图；

图2是本发明实施例提供的一种ResNet-18的结构图；

图3是分别采用SL和SCL方式训练完成的、不同数据增强组合下模型的分类准确率示意图。

图4是图3中SL和SCL方式下各模型的、带误差条的分类准确率示意图。

图5是分别采用SL和SCL方式训练完成的、不同学习率下模型的分类准确率示意图。

图6是图5中SL和SCL方式下各模型的、带误差条的分类准确率示意图。

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

图1是本发明实施例提供的一种眼底图像分类模型构建方法的流程图。该方法适用于采用深度学习网络构建眼底图像分类模型的情况。该方法由电子设备执行，如图1所示，具体包括如下步骤。

S110、获取待训练的眼底图像分类模型。

在所述待训练的的眼底图像分类模型中，基本架构是确定的，包括卷积层、第一全连接层和第二全连接层。其中，所述卷积层和第一全连接层构成特征提取层，用于对输入所述卷积层的眼底图像进行特征提取；所述第二全连接层构成分类层，用于根据提取到的特征对眼底图像进行分类，输出眼底图像的类型。可选的，眼底图像的类型包括眼底正常图像和眼底异常图像；所述眼底正常图像包括：无糖尿病性视网膜病变的眼底图像；所述眼底异常图像包括：轻度糖尿病性视网膜病的眼底图像、中度糖尿病视网膜病变的眼底图像、重度糖尿病性视网膜疾病的眼底图像、增殖性糖尿病视网膜病变的眼底图像。需要说明的是，本实施例实现的是对眼底正常图像和眼底异常图像的二分类，轻度糖尿病性视网膜病的眼底图像、中度糖尿病视网膜病变的眼底图像、重度糖尿病性视网膜疾病的眼底图像、增殖性糖尿病视网膜病变的眼底图像均被分类为眼底异常图像。

在一具体实施方式中，选择ResNet作为主干网，由所述卷积层和所述第一连接层共同构成残差网络结构，残差块的每个基本块中应用批量归一化，基本块中两个卷积层之间的激活函数为ReLU。ResNet是最流行的深度神经网络之一，关键是残差学习。残差学习是一种捷径连接，将上一层的特征复制到下一层，解决了深度学习中的网络退化问题。可选的，选择ResNet-18作为眼底图像分类模型的主干网络，ResNet-18由包含卷积层和全连接层的18层模块组成。ResNet-18的结构如图2所示，其中，conv1、conv2、conv3、conv4和conv5分别表示5层卷积层，stride表示卷积核移动的步幅，max pool表示最大池化，Averagepool表示平均池化，1000-d FC表示输出为1000维的第一全连接层，softmax表示归一化函数。为了实现眼底正常图像和眼底异常图像的二分类，本实施例在第一全连接层与softmax之间增加了输出为2维数据的第二全连接层，所包括的二维数据分别表示输入模型的眼底图像属于眼底正常图像的概率，和属于眼底异常图像的概率。ResNet-18的残差块的每个基本块中应用批量归一化，基本块中两个卷积层之间的激活函数为ReLU。ResNet-18的结构简单但高效。

S120、利用Image Net数据集，对所述卷积层和第一全连接层进行预训练。

为了加快模型收敛，本实施例首先利用Image Net数据集对卷积层和第一全连接层的参数进行预训练，将的到的网络参数作为后续参数训练的基础。

S130、由标注好类型的眼底图像生成样本集，采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练。

本实施例基于预训练的网络参数，继续采用标注好类型的眼底图像对特征提取层的参数进行二次训练。具体的，包括以下步骤：

步骤一、获取原始眼底图像。本实施例基于已有的糖尿病视网膜病变数据集（DDR），选取原始眼底图像并进行类型标准。DDR是一个眼底图像数据集，由13000多个样本组成，分为六类，包括无糖尿病性视网膜病变、轻度糖尿病性视网膜病、中度糖尿病视网膜病变、重度糖尿病性视网膜疾病、增殖性糖尿病视网膜病变和不可分级数据。本实施例中排除了不可分级的图像，并将无糖尿病性视网膜病变的眼底图像标注为正常眼底图像，将所有糖尿病视网膜病变图像合并为一个类，标注为异常眼底图像，以获得平衡的数据集。

步骤二、对标注好类型的原始眼底图像进行数据增强，并将数据增强后的眼底图像调整为设定大小，由调整后的图像构成样本集。其中，应用到的数据增强方法包括随机水平翻转、随机垂直翻转、随机旋转和颜色抖动。原始数据的图像大小范围从5184p x 3456p到702p x 717p，为了适应模型，将所有图像的大小都调整为224p x 224p。

步骤三、通过以下损失函数的最小化，对预训练后的卷积层和第一全连接层进行二次训练：

其中，

表示模型训练的整体损失函数，I表示样本集，i表示样本集中的任一样本，

表示样本i的特征损失，z _i表示样本i经过所述特征提取层后提取到的特征，τ表示超参数，P(i)表示与样本i属于同一类型的样本集合，A(i)表示与样本i属于不同类型的样本集合，p表示P(i)中的样本，a表示A(i)中的样本，z _p表示样本p经过所述特征提取层后提取到的特征，z _a表示样本a经过所述特征提取层后提取到的特征，

表示P(i)中的样本数量。

其中，

表征了同一类型的样本之间的距离，

表征了不同类型的样本之间的距离。通过

的最小化，同时保证了相似图像之间的一致性和不同图像之间的不一致性的最大化，实现了有监督的对比学习，更有利于提高模型的精确度和鲁棒性。

S140、冻结二次训练后的卷积层，利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调，得到训练好的眼底图像分类模型。

完成二次训练后，进入分类阶段的训练。本次训练冻结二次训练后的卷积层参数，对第一全连接层和第二全连接层的参数进行微调，由二次训练后的卷积层、微调后的第一全连接层和第二全连接层，以及其余网络结构共同构成训练好的眼底图像分类模型。

本实施例基于标记的眼底图像和深度学习方法，建立了眼底图像的二分类模型。首先通过ImageNet数据集对模型进行预训练，再基于预训练后的模型利用类内相似、类间差异的损失函数，对特征提取层继续进行二次训练，实现了迁移学习和监督对比学习；最后将卷积层的参数冻结，对全连接层的参数进行微调，完成分类阶段的三次训练。其中，迁移学习加快了模型的收敛速度，并具有改进性能的潜力；监督学习和训练样本中的增强数据，共同提高了模型的分类精度和鲁棒性；分类阶段的训练则保证了模型输出的准确性。整个方法将模型训练划分预训练、二次训练和三次训练三个阶段，逐步保证特征提取层的准确度和鲁棒性，以及分类层的准确度和鲁棒性，使得模型在分类问题上表现出优异的性能，且充分利用上一阶段的训练成果，加快本阶段的收敛速度，避免了样本数据对模型的反复干扰，提高了整个模型构建的效率。

在上述实施例的基础上，本实施例不同的训练参数构建不同的模型，通过对各模型的对比分析模型的准确度和鲁棒性。具体的，由于每个类型的样本数在数据集中是平衡的，所以模型精度（即分类准确率）足以衡量模型的性能；而不同模型的鲁棒性由分类模型在不同设置下的准确率标准差来衡量。根据差异化设置的训练参数的不同，可以包括以下两种可选实施方式：

第一种可选实施方式，设置不同的数据增强策略，验证不同数据增强策略下的模型鲁棒性和准确性。在该实施方式中：

所述由标注好类型的眼底图像构成样本集，包括：对多种数据增强方法进行排列组合，其中，所述多种数据增强方法包括：随机水平翻转、随机垂直翻转、颜色抖动，以及不同旋转率的随机旋转；采取不同组合的数据增强方法，对标注好类型的原始眼底图像进行数据增强，形成不同的图像集；将各图像集中的图像调整为设定大小，由调整后的各图像集构成各样本集。

所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练，包括：将各样本集划分为训练集和测试集；采用监督对比学习方式，分别利用不同的训练集对预训练后的卷积层和第一全连接层进行二次训练。

所述冻结二次训练后的卷积层，利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调，得到训练好的眼底图像分类模型，包括：在任一训练集对应的、二次训练后的眼底图像分类模型中，冻结二次训练后的卷积层，利用所述训练集对第二全连接层和预训练后的第一全连接层进行微调，得到所述训练集所在的样本集对应的、训练好的眼底图像分类模型。

得到各样本集对应的、训练好的眼底图像分类模型后，利用各测试集分别对各模型进行测试，得到各模型的分类准确率，其中，同一模型的训练和测试利用同一样本集的训练集和测试集完成；根据模型间的分类准确率差异，检验模型的鲁棒性。

可选的，采用如图3所示的9种数据增强方法组合，分别通过监督学习（SL）和监督对比学习（SCL）的方式进行二次训练，最终得到如图3所示的分类准确率。其中，可以看出，SL的平均准确率为80.68%，SCI的平均准确率为86.53%，因此在不同数据增强方法组合下，SCL的分类准确率优于SL。各模型间分类准确率的差异如图4所示，可以看出，SL的方差为1.53%，而SCL的方差为是0.18%，因此在不同的数据增强方法组合下，SCL的鲁棒性优于SL。

第二种可选实施方式，设置不同的学习率，验证不同学习率下的模型鲁棒性和准确性。在该实施方式中：

所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练，包括：采用监督对比学习方式，利用所述样本的训练集、以不同的学习率对预训练后的卷积层和第一全连接层进行二次训练。

所述冻结二次训练后的卷积层，利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调，得到训练好的眼底图像分类模型，包括：在任一学习率对应的、二次训练后的眼底图像分类模型中，冻结二次训练后的卷积层，用所述训练集、以所述学习率对第二全连接层和预训练后的第一全连接层进行微调，得到所述学习率对应的、训练好的眼底图像分类模型。

得到各学习率对应的、训练好的眼底图像分类模型后，利用所述样本集的测试集对各模型进行测试，得到各模型的分类准确率；根据模型间的分类准确率差异，检验模型的鲁棒性。

可选的，采用如图5所示的9种不同的学习速率，分别通过监督学习（SL）和监督对比学习（SCL）的方式进行二次训练，最终得到如图5所示的分类准确率。可以看出，SL的平均准确率为80.79%，SCL的平均准确率为86.64%，因此在不同的学习率下，SCL的性能更好。各模型间分类准确率的差异如图5所示，可以看出，SL的方差为4.11%，而SCL的方差为0.15%，因此在不同学习率下，SCL的稳健性优于SL。

以上两种可选实施方式均证实了：通过本申请提供的方法构建的眼底图像分类模型具有优异的准确度和稳健性，克服了现有模型中对训练参数敏感、鲁棒性差的技术问题。

图7为本发明实施例提供的一种电子设备的结构示意图，如图7所示，该设备包括处理器50、存储器51、输入装置52和输出装置53；设备中处理器50的数量可以是一个或多个，图7中以一个处理器50为例；设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种眼底图像分类模型构建方法、设备及存储介质对应的程序指令/模块。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的一种眼底图像分类模型构建方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例的眼底图像分类模型构建方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims

1.一种眼底图像分类模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，眼底图像的类型包括眼底正常图像和眼底异常图像；

所述由标注好类型的眼底图像构成样本集，包括：

获取标注好类型的原始眼底图像；

对所述原始眼底图像进行数据增强；

将数据增强后的眼底图像调整为设定大小，由调整后的图像构成样本集。

3.根据权利要求1所述的方法，所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练，包括：

通过以下损失函数的最小化，对预训练后的卷积层和第一全连接层进行二次训练：

其中，

表示P(i)中的样本数量。

4.根据权利要求1所述的方法，其特征在于，所述由标注好类型的眼底图像构成样本集，包括：

对多种数据增强方法进行排列组合，其中，所述多种数据增强方法包括：随机水平翻转、随机垂直翻转、颜色抖动，以及不同旋转率的随机旋转；

采取不同组合的数据增强方法，对标注好类型的原始眼底图像进行数据增强，形成不同的图像集；

将各图像集中的图像调整为设定大小，由调整后的各图像集构成各样本集；

所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练，包括：

将各样本集划分为训练集和测试集；

采用监督对比学习方式，分别利用不同的训练集对预训练后的卷积层和第一全连接层进行二次训练；

在所述冻结二次训练后的卷积层，利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调，得到训练好的眼底图像分类模型之后，还包括：

得到各样本集对应的、训练好的眼底图像分类模型后，利用各测试集分别对各模型进行测试，得到各模型的分类准确率，其中，同一模型的训练和测试利用同一样本集的训练集和测试集完成；

根据模型间的分类准确率差异，检验模型的鲁棒性。

5.根据权利要求1所述的方法，其特征在于，所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练，包括：

采用监督对比学习方式，利用所述样本的训练集、以不同的学习率对预训练后的卷积层和第一全连接层进行二次训练；

得到各学习率对应的、训练好的眼底图像分类模型后，利用所述样本集的测试集对各模型进行测试，得到各模型的分类准确率；

根据模型间的分类准确率差异，检验模型的鲁棒性。

6.根据权利要求4或5所述的方法，其特征在于，在得到各模型的分类准确率后，还包括：

如果各模型的平均分类准确率小于第一预设值，和/或各模型的分类准确率标准差大于第二预设值，调整超参数，重新进行模型训练。

7.根据权利要求1所述的方法，其特征在于，眼底图像的类型包括眼底正常图像和眼底异常图像；

所述眼底正常图像包括：无糖尿病性视网膜病变的眼底图像；

所述眼底异常图像包括：轻度糖尿病性视网膜病的眼底图像、中度糖尿病视网膜病变的眼底图像、重度糖尿病性视网膜疾病的眼底图像、增殖性糖尿病视网膜病变的眼底图像。

8.根据权利要求1所述的方法，其特征在于，所述卷积层和所述第一连接层共同构成残差网络结构，残差块的每个基本块中应用批量归一化，基本块中两个卷积层之间的激活函数为ReLU。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的眼底图像分类模型构建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的眼底图像分类模型构建方法。