CN115496954A - 眼底图像分类模型构建方法、设备及介质 - Google Patents
眼底图像分类模型构建方法、设备及介质 Download PDFInfo
- Publication number
- CN115496954A CN115496954A CN202211366862.7A CN202211366862A CN115496954A CN 115496954 A CN115496954 A CN 115496954A CN 202211366862 A CN202211366862 A CN 202211366862A CN 115496954 A CN115496954 A CN 115496954A
- Authority
- CN
- China
- Prior art keywords
- training
- layer
- fundus
- full
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000008014 freezing Effects 0.000 claims abstract description 12
- 238000007710 freezing Methods 0.000 claims abstract description 12
- 206010012689 Diabetic retinopathy Diseases 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 201000007914 proliferative diabetic retinopathy Diseases 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000032598 susceptibility microvascular complications of diabetes Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明实施例公开了一种眼底图像分类模型构建方法、设备及介质。其中,方法包括:获取待训练的眼底图像分类模型,其中,所述模型包括卷积层、第一全连接层和第二全连接层,所述卷积层和第一全连接层用于特征提取,所述第二全连接层用于分类;利用Image Net数据集,对所述卷积层和第一全连接层进行预训练;由标注好类型的眼底图像生成样本集,采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练;冻结二次训练后的卷积层,利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调,得到训练好的眼底图像分类模型。本实施例提高模型的准确度和鲁棒性。
Description
技术领域
本发明实施例涉及智能交通领域,尤其涉及一种眼底图像分类模型构建方法、设备及介质。
背景技术
糖尿病视网膜病变是糖尿病最常见的微血管并发症之一,根据眼底图像进行早期筛查和识别可以效降低风险。然而,常规筛查是一项人工密集型工作。
目前已经提出了许多机器学习算法来构建眼底图像的自动分类模型,例如专利CN114612389A和CN114419377A。但这些模型的分类准确度往往对训练参数非常敏感,导致模型的鲁棒性差。
发明内容
本发明实施例提供一种眼底图像分类模型构建方法、设备及介质,以提高模型的准确度和鲁棒性。
第一方面,本发明实施例提供了一种眼底图像分类模型构建方法,包括:
获取待训练的眼底图像分类模型,其中,所述模型包括卷积层、第一全连接层和第二全连接层,所述卷积层和第一全连接层用于特征提取,所述第二全连接层用于分类;
利用Image Net数据集,对所述卷积层和第一全连接层进行预训练;
由标注好类型的眼底图像生成样本集,采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练;
冻结二次训练后的卷积层,利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调,得到训练好的眼底图像分类模型。
第二方面,本发明实施例提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的眼底图像分类模型构建方法。
第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的眼底图像分类模型构建方法。
本发明实施例基于标记的眼底图像和深度学习方法,建立了眼底图像的二分类模型。首先通过ImageNet数据集对模型进行预训练,再基于预训练后的模型利用类内相似、类间差异的损失函数,对特征提取层继续进行二次训练,实现了迁移学习和监督对比学习;最后将卷积层的参数冻结,对全连接层的参数进行微调,完成分类阶段的三次训练。其中,迁移学习加快了模型的收敛速度,并具有改进性能的潜力;监督学习和训练样本中的增强数据,共同提高了模型的分类精度和鲁棒性;分类阶段的训练则保证了模型输出的准确性。整个方法将模型训练划分预训练、二次训练和三次训练三个阶段,逐步保证特征提取层的准确度和鲁棒性,以及分类层的准确度和鲁棒性,使得模型在分类问题上表现出优异的性能,且充分利用上一阶段的训练成果,加快本阶段的收敛速度,避免了样本数据对模型的反复干扰,提高了整个模型构建的效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种眼底图像分类模型构建方法的流程图;
图2是本发明实施例提供的一种ResNet-18的结构图;
图3是分别采用SL和SCL方式训练完成的、不同数据增强组合下模型的分类准确率示意图。
图4是图3中SL和SCL方式下各模型的、带误差条的分类准确率示意图。
图5是分别采用SL和SCL方式训练完成的、不同学习率下模型的分类准确率示意图。
图6是图5中SL和SCL方式下各模型的、带误差条的分类准确率示意图。
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1是本发明实施例提供的一种眼底图像分类模型构建方法的流程图。该方法适用于采用深度学习网络构建眼底图像分类模型的情况。该方法由电子设备执行,如图1所示,具体包括如下步骤。
S110、获取待训练的眼底图像分类模型。
在所述待训练的的眼底图像分类模型中,基本架构是确定的,包括卷积层、第一全连接层和第二全连接层。其中,所述卷积层和第一全连接层构成特征提取层,用于对输入所述卷积层的眼底图像进行特征提取;所述第二全连接层构成分类层,用于根据提取到的特征对眼底图像进行分类,输出眼底图像的类型。可选的,眼底图像的类型包括眼底正常图像和眼底异常图像;所述眼底正常图像包括:无糖尿病性视网膜病变的眼底图像;所述眼底异常图像包括:轻度糖尿病性视网膜病的眼底图像、中度糖尿病视网膜病变的眼底图像、重度糖尿病性视网膜疾病的眼底图像、增殖性糖尿病视网膜病变的眼底图像。需要说明的是,本实施例实现的是对眼底正常图像和眼底异常图像的二分类,轻度糖尿病性视网膜病的眼底图像、中度糖尿病视网膜病变的眼底图像、重度糖尿病性视网膜疾病的眼底图像、增殖性糖尿病视网膜病变的眼底图像均被分类为眼底异常图像。
在一具体实施方式中,选择ResNet作为主干网,由所述卷积层和所述第一连接层共同构成残差网络结构,残差块的每个基本块中应用批量归一化,基本块中两个卷积层之间的激活函数为ReLU。ResNet是最流行的深度神经网络之一,关键是残差学习。残差学习是一种捷径连接,将上一层的特征复制到下一层,解决了深度学习中的网络退化问题。可选的,选择ResNet-18作为眼底图像分类模型的主干网络,ResNet-18由包含卷积层和全连接层的18层模块组成。ResNet-18的结构如图2所示,其中,conv1、conv2、conv3、conv4和conv5分别表示5层卷积层,stride表示卷积核移动的步幅,max pool表示最大池化,Averagepool表示平均池化,1000-d FC表示输出为1000维的第一全连接层,softmax表示归一化函数。为了实现眼底正常图像和眼底异常图像的二分类,本实施例在第一全连接层与softmax之间增加了输出为2维数据的第二全连接层,所包括的二维数据分别表示输入模型的眼底图像属于眼底正常图像的概率,和属于眼底异常图像的概率。ResNet-18的残差块的每个基本块中应用批量归一化,基本块中两个卷积层之间的激活函数为ReLU。ResNet-18的结构简单但高效。
S120、利用Image Net数据集,对所述卷积层和第一全连接层进行预训练。
为了加快模型收敛,本实施例首先利用Image Net数据集对卷积层和第一全连接层的参数进行预训练,将的到的网络参数作为后续参数训练的基础。
S130、由标注好类型的眼底图像生成样本集,采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练。
本实施例基于预训练的网络参数,继续采用标注好类型的眼底图像对特征提取层的参数进行二次训练。具体的,包括以下步骤:
步骤一、获取原始眼底图像。本实施例基于已有的糖尿病视网膜病变数据集(DDR),选取原始眼底图像并进行类型标准。DDR是一个眼底图像数据集,由13000多个样本组成,分为六类,包括无糖尿病性视网膜病变、轻度糖尿病性视网膜病、中度糖尿病视网膜病变、重度糖尿病性视网膜疾病、增殖性糖尿病视网膜病变和不可分级数据。本实施例中排除了不可分级的图像,并将无糖尿病性视网膜病变的眼底图像标注为正常眼底图像,将所有糖尿病视网膜病变图像合并为一个类,标注为异常眼底图像,以获得平衡的数据集。
步骤二、对标注好类型的原始眼底图像进行数据增强,并将数据增强后的眼底图像调整为设定大小,由调整后的图像构成样本集。其中,应用到的数据增强方法包括随机水平翻转、随机垂直翻转、随机旋转和颜色抖动。原始数据的图像大小范围从5184p x 3456p到702p x 717p,为了适应模型,将所有图像的大小都调整为224p x 224p。
步骤三、通过以下损失函数的最小化,对预训练后的卷积层和第一全连接层进行二次训练:
其中,表示模型训练的整体损失函数,I表示样本集,i表示样本集中的任一样本,表示样本i的特征损失,z i 表示样本i经过所述特征提取层后提取到的特征,τ表示超参数,P(i)表示与样本i属于同一类型的样本集合,A(i)表示与样本i属于不同类型的样本集合,p表示P(i)中的样本,a表示A(i)中的样本,z p 表示样本p经过所述特征提取层后提取到的特征,z a 表示样本a经过所述特征提取层后提取到的特征,表示P(i)中的样本数量。
其中,表征了同一类型的样本之间的距离,表征了不同类型的样本之间的距离。通过的最小化,同时保证了相似图像之间的一致性和不同图像之间的不一致性的最大化,实现了有监督的对比学习,更有利于提高模型的精确度和鲁棒性。
S140、冻结二次训练后的卷积层,利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调,得到训练好的眼底图像分类模型。
完成二次训练后,进入分类阶段的训练。本次训练冻结二次训练后的卷积层参数,对第一全连接层和第二全连接层的参数进行微调,由二次训练后的卷积层、微调后的第一全连接层和第二全连接层,以及其余网络结构共同构成训练好的眼底图像分类模型。
本实施例基于标记的眼底图像和深度学习方法,建立了眼底图像的二分类模型。首先通过ImageNet数据集对模型进行预训练,再基于预训练后的模型利用类内相似、类间差异的损失函数,对特征提取层继续进行二次训练,实现了迁移学习和监督对比学习;最后将卷积层的参数冻结,对全连接层的参数进行微调,完成分类阶段的三次训练。其中,迁移学习加快了模型的收敛速度,并具有改进性能的潜力;监督学习和训练样本中的增强数据,共同提高了模型的分类精度和鲁棒性;分类阶段的训练则保证了模型输出的准确性。整个方法将模型训练划分预训练、二次训练和三次训练三个阶段,逐步保证特征提取层的准确度和鲁棒性,以及分类层的准确度和鲁棒性,使得模型在分类问题上表现出优异的性能,且充分利用上一阶段的训练成果,加快本阶段的收敛速度,避免了样本数据对模型的反复干扰,提高了整个模型构建的效率。
在上述实施例的基础上,本实施例不同的训练参数构建不同的模型,通过对各模型的对比分析模型的准确度和鲁棒性。具体的,由于每个类型的样本数在数据集中是平衡的,所以模型精度(即分类准确率)足以衡量模型的性能;而不同模型的鲁棒性由分类模型在不同设置下的准确率标准差来衡量。根据差异化设置的训练参数的不同,可以包括以下两种可选实施方式:
第一种可选实施方式,设置不同的数据增强策略,验证不同数据增强策略下的模型鲁棒性和准确性。在该实施方式中:
所述由标注好类型的眼底图像构成样本集,包括:对多种数据增强方法进行排列组合,其中,所述多种数据增强方法包括:随机水平翻转、随机垂直翻转、颜色抖动,以及不同旋转率的随机旋转;采取不同组合的数据增强方法,对标注好类型的原始眼底图像进行数据增强,形成不同的图像集;将各图像集中的图像调整为设定大小,由调整后的各图像集构成各样本集。
所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练,包括:将各样本集划分为训练集和测试集;采用监督对比学习方式,分别利用不同的训练集对预训练后的卷积层和第一全连接层进行二次训练。
所述冻结二次训练后的卷积层,利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调,得到训练好的眼底图像分类模型,包括:在任一训练集对应的、二次训练后的眼底图像分类模型中,冻结二次训练后的卷积层,利用所述训练集对第二全连接层和预训练后的第一全连接层进行微调,得到所述训练集所在的样本集对应的、训练好的眼底图像分类模型。
得到各样本集对应的、训练好的眼底图像分类模型后,利用各测试集分别对各模型进行测试,得到各模型的分类准确率,其中,同一模型的训练和测试利用同一样本集的训练集和测试集完成;根据模型间的分类准确率差异,检验模型的鲁棒性。
可选的,采用如图3所示的9种数据增强方法组合,分别通过监督学习(SL)和监督对比学习(SCL)的方式进行二次训练,最终得到如图3所示的分类准确率。其中,可以看出,SL的平均准确率为80.68%,SCI的平均准确率为86.53%,因此在不同数据增强方法组合下,SCL的分类准确率优于SL。各模型间分类准确率的差异如图4所示,可以看出,SL的方差为1.53%,而SCL的方差为是0.18%,因此在不同的数据增强方法组合下,SCL的鲁棒性优于SL。
第二种可选实施方式,设置不同的学习率,验证不同学习率下的模型鲁棒性和准确性。在该实施方式中:
所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练,包括:采用监督对比学习方式,利用所述样本的训练集、以不同的学习率对预训练后的卷积层和第一全连接层进行二次训练。
所述冻结二次训练后的卷积层,利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调,得到训练好的眼底图像分类模型,包括:在任一学习率对应的、二次训练后的眼底图像分类模型中,冻结二次训练后的卷积层,用所述训练集、以所述学习率对第二全连接层和预训练后的第一全连接层进行微调,得到所述学习率对应的、训练好的眼底图像分类模型。
得到各学习率对应的、训练好的眼底图像分类模型后,利用所述样本集的测试集对各模型进行测试,得到各模型的分类准确率;根据模型间的分类准确率差异,检验模型的鲁棒性。
可选的,采用如图5所示的9种不同的学习速率,分别通过监督学习(SL)和监督对比学习(SCL)的方式进行二次训练,最终得到如图5所示的分类准确率。可以看出,SL的平均准确率为80.79%,SCL的平均准确率为86.64%,因此在不同的学习率下,SCL的性能更好。各模型间分类准确率的差异如图5所示,可以看出,SL的方差为4.11%,而SCL的方差为0.15%,因此在不同学习率下,SCL的稳健性优于SL。
以上两种可选实施方式均证实了:通过本申请提供的方法构建的眼底图像分类模型具有优异的准确度和稳健性,克服了现有模型中对训练参数敏感、鲁棒性差的技术问题。
图7为本发明实施例提供的一种电子设备的结构示意图,如图7所示,该设备包括处理器50、存储器51、输入装置52和输出装置53;设备中处理器50的数量可以是一个或多个,图7中以一个处理器50为例;设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种眼底图像分类模型构建方法、设备及存储介质对应的程序指令/模块。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的一种眼底图像分类模型构建方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例的眼底图像分类模型构建方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案。
Claims (10)
1.一种眼底图像分类模型构建方法,其特征在于,包括:
获取待训练的眼底图像分类模型,其中,所述模型包括卷积层、第一全连接层和第二全连接层,所述卷积层和第一全连接层用于特征提取,所述第二全连接层用于分类;
利用Image Net数据集,对所述卷积层和第一全连接层进行预训练;
由标注好类型的眼底图像生成样本集,采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练;
冻结二次训练后的卷积层,利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调,得到训练好的眼底图像分类模型。
2.根据权利要求1所述的方法,其特征在于,眼底图像的类型包括眼底正常图像和眼底异常图像;
所述由标注好类型的眼底图像构成样本集,包括:
获取标注好类型的原始眼底图像;
对所述原始眼底图像进行数据增强;
将数据增强后的眼底图像调整为设定大小,由调整后的图像构成样本集。
3.根据权利要求1所述的方法,所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练,包括:
通过以下损失函数的最小化,对预训练后的卷积层和第一全连接层进行二次训练:
4.根据权利要求1所述的方法,其特征在于,所述由标注好类型的眼底图像构成样本集,包括:
对多种数据增强方法进行排列组合,其中,所述多种数据增强方法包括:随机水平翻转、随机垂直翻转、颜色抖动,以及不同旋转率的随机旋转;
采取不同组合的数据增强方法,对标注好类型的原始眼底图像进行数据增强,形成不同的图像集;
将各图像集中的图像调整为设定大小,由调整后的各图像集构成各样本集;
所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练,包括:
将各样本集划分为训练集和测试集;
采用监督对比学习方式,分别利用不同的训练集对预训练后的卷积层和第一全连接层进行二次训练;
在所述冻结二次训练后的卷积层,利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调,得到训练好的眼底图像分类模型之后,还包括:
得到各样本集对应的、训练好的眼底图像分类模型后,利用各测试集分别对各模型进行测试,得到各模型的分类准确率,其中,同一模型的训练和测试利用同一样本集的训练集和测试集完成;
根据模型间的分类准确率差异,检验模型的鲁棒性。
5.根据权利要求1所述的方法,其特征在于,所述采用监督对比学习方式对预训练后的卷积层和第一全连接层进行二次训练,包括:
采用监督对比学习方式,利用所述样本的训练集、以不同的学习率对预训练后的卷积层和第一全连接层进行二次训练;
在所述冻结二次训练后的卷积层,利用所样本集对所述第二全连接层和预训练后的第一全连接层进行微调,得到训练好的眼底图像分类模型之后,还包括:
得到各学习率对应的、训练好的眼底图像分类模型后,利用所述样本集的测试集对各模型进行测试,得到各模型的分类准确率;
根据模型间的分类准确率差异,检验模型的鲁棒性。
6.根据权利要求4或5所述的方法,其特征在于,在得到各模型的分类准确率后,还包括:
如果各模型的平均分类准确率小于第一预设值,和/或各模型的分类准确率标准差大于第二预设值,调整超参数,重新进行模型训练。
7.根据权利要求1所述的方法,其特征在于,眼底图像的类型包括眼底正常图像和眼底异常图像;
所述眼底正常图像包括:无糖尿病性视网膜病变的眼底图像;
所述眼底异常图像包括:轻度糖尿病性视网膜病的眼底图像、中度糖尿病视网膜病变的眼底图像、重度糖尿病性视网膜疾病的眼底图像、增殖性糖尿病视网膜病变的眼底图像。
8.根据权利要求1所述的方法,其特征在于,所述卷积层和所述第一连接层共同构成残差网络结构,残差块的每个基本块中应用批量归一化,基本块中两个卷积层之间的激活函数为ReLU。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的眼底图像分类模型构建方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的眼底图像分类模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211366862.7A CN115496954B (zh) | 2022-11-03 | 2022-11-03 | 眼底图像分类模型构建方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211366862.7A CN115496954B (zh) | 2022-11-03 | 2022-11-03 | 眼底图像分类模型构建方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115496954A true CN115496954A (zh) | 2022-12-20 |
CN115496954B CN115496954B (zh) | 2023-05-12 |
Family
ID=85115350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211366862.7A Active CN115496954B (zh) | 2022-11-03 | 2022-11-03 | 眼底图像分类模型构建方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496954B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188294A (zh) * | 2022-12-22 | 2023-05-30 | 东莞理工学院 | 用于医学图像的数据增强方法、系统、智能终端及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376636A (zh) * | 2018-10-15 | 2019-02-22 | 电子科技大学 | 基于胶囊网络的眼底视网膜图像分类方法 |
CN109859172A (zh) * | 2019-01-08 | 2019-06-07 | 浙江大学 | 基于眼底造影图像深度学习的糖网病变无灌注区识别方法 |
WO2019231102A1 (ko) * | 2018-05-31 | 2019-12-05 | 주식회사 뷰노 | 피검체의 안저 영상을 분류하는 방법 및 이를 이용한 장치 |
CN111476283A (zh) * | 2020-03-31 | 2020-07-31 | 上海海事大学 | 基于迁移学习的青光眼眼底图像识别方法 |
CN112101424A (zh) * | 2020-08-24 | 2020-12-18 | 深圳大学 | 一种视网膜病变识别模型的生成方法、识别装置及设备 |
CN113536834A (zh) * | 2020-04-14 | 2021-10-22 | 华为技术有限公司 | 眼袋检测方法以及装置 |
EP3901816A1 (en) * | 2018-12-19 | 2021-10-27 | Shanghai Eaglevision Medical Technology Co., Ltd. | Glaucoma image recognition method and device and screening system |
CN114418999A (zh) * | 2022-01-20 | 2022-04-29 | 哈尔滨工业大学 | 基于病变关注金字塔卷积神经网络的视网膜病变检测系统 |
CN114511733A (zh) * | 2022-01-05 | 2022-05-17 | 泉州湖南大学工业设计与机器智能创新研究院 | 基于弱监督学习的细粒度图像识别方法、装置及可读介质 |
CN114693961A (zh) * | 2020-12-11 | 2022-07-01 | 北京航空航天大学 | 眼底照片分类方法、眼底图像处理方法和系统 |
CN114724007A (zh) * | 2022-03-31 | 2022-07-08 | 北京百度网讯科技有限公司 | 训练分类模型、数据分类方法、装置、设备、介质及产品 |
-
2022
- 2022-11-03 CN CN202211366862.7A patent/CN115496954B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019231102A1 (ko) * | 2018-05-31 | 2019-12-05 | 주식회사 뷰노 | 피검체의 안저 영상을 분류하는 방법 및 이를 이용한 장치 |
CN109376636A (zh) * | 2018-10-15 | 2019-02-22 | 电子科技大学 | 基于胶囊网络的眼底视网膜图像分类方法 |
EP3901816A1 (en) * | 2018-12-19 | 2021-10-27 | Shanghai Eaglevision Medical Technology Co., Ltd. | Glaucoma image recognition method and device and screening system |
CN109859172A (zh) * | 2019-01-08 | 2019-06-07 | 浙江大学 | 基于眼底造影图像深度学习的糖网病变无灌注区识别方法 |
CN111476283A (zh) * | 2020-03-31 | 2020-07-31 | 上海海事大学 | 基于迁移学习的青光眼眼底图像识别方法 |
CN113536834A (zh) * | 2020-04-14 | 2021-10-22 | 华为技术有限公司 | 眼袋检测方法以及装置 |
CN112101424A (zh) * | 2020-08-24 | 2020-12-18 | 深圳大学 | 一种视网膜病变识别模型的生成方法、识别装置及设备 |
CN114693961A (zh) * | 2020-12-11 | 2022-07-01 | 北京航空航天大学 | 眼底照片分类方法、眼底图像处理方法和系统 |
CN114511733A (zh) * | 2022-01-05 | 2022-05-17 | 泉州湖南大学工业设计与机器智能创新研究院 | 基于弱监督学习的细粒度图像识别方法、装置及可读介质 |
CN114418999A (zh) * | 2022-01-20 | 2022-04-29 | 哈尔滨工业大学 | 基于病变关注金字塔卷积神经网络的视网膜病变检测系统 |
CN114724007A (zh) * | 2022-03-31 | 2022-07-08 | 北京百度网讯科技有限公司 | 训练分类模型、数据分类方法、装置、设备、介质及产品 |
Non-Patent Citations (2)
Title |
---|
FAHMAN SAEED 等: "Automatic Diabetic Retinopathy Diagnosis Using Adaptive Fine-Tuned Convolutional Neural Network" * |
郭泽琪: "基于深度学习的糖尿病视网膜病变智能诊断方法研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188294A (zh) * | 2022-12-22 | 2023-05-30 | 东莞理工学院 | 用于医学图像的数据增强方法、系统、智能终端及介质 |
CN116188294B (zh) * | 2022-12-22 | 2023-09-19 | 东莞理工学院 | 用于医学图像的数据增强方法、系统、智能终端及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115496954B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11954852B2 (en) | Medical image classification method, model training method, computing device, and storage medium | |
CN110363290B (zh) | 一种基于混合神经网络模型的图像识别方法、装置及设备 | |
CN108615071B (zh) | 模型测试的方法及装置 | |
CN108710893B (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN106407986A (zh) | 一种基于深度模型的合成孔径雷达图像目标识别方法 | |
US11176654B2 (en) | Quality assessment of a video | |
CN115496954A (zh) | 眼底图像分类模型构建方法、设备及介质 | |
CN111242176B (zh) | 计算机视觉任务的处理方法、装置及电子系统 | |
CN115861837A (zh) | 基于Ares-UNet++网络的耕地识别方法及相关装置 | |
CN116452810A (zh) | 一种多层次语义分割方法、装置、电子设备及存储介质 | |
CN115565019A (zh) | 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法 | |
CN111310837A (zh) | 车辆改装识别方法、装置、系统、介质和设备 | |
CN112784494B (zh) | 假阳性识别模型的训练方法、目标识别方法及装置 | |
CN116522988B (zh) | 基于图结构学习的联邦学习方法、系统、终端及介质 | |
CN114049935A (zh) | 一种基于多卷积神经网络的her2图像分类系统 | |
WO2021179198A1 (zh) | 图像特征可视化方法、图像特征可视化装置及电子设备 | |
CN115358952B (zh) | 一种基于元学习的图像增强方法、系统、设备和存储介质 | |
CN113065513A (zh) | 智能摄像头自训练置信度阈值的优化方法、装置及设备 | |
CN114359359B (zh) | 多任务光学和sar遥感图像配准方法、设备和介质 | |
CN112101438A (zh) | 一种左右眼分类方法、装置、服务器和存储介质 | |
CN111860259A (zh) | 驾驶检测模型的训练、使用方法、装置、设备及介质 | |
CN111860601A (zh) | 预测大型真菌种类的方法及装置 | |
CN115410250A (zh) | 阵列式人脸美丽预测方法、设备及存储介质 | |
CN114092827A (zh) | 一种图像数据集生成方法 | |
CN111127327B (zh) | 一种图片倾斜检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |