CN117496231A - 糖尿病性视网膜病变图像分类方法、装置以及计算机设备 - Google Patents
糖尿病性视网膜病变图像分类方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN117496231A CN117496231A CN202311388977.0A CN202311388977A CN117496231A CN 117496231 A CN117496231 A CN 117496231A CN 202311388977 A CN202311388977 A CN 202311388977A CN 117496231 A CN117496231 A CN 117496231A
- Authority
- CN
- China
- Prior art keywords
- image
- diabetic retinopathy
- train
- feature
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010012689 Diabetic retinopathy Diseases 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 69
- 230000004927 fusion Effects 0.000 claims abstract description 54
- 230000007246 mechanism Effects 0.000 claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 230000009466 transformation Effects 0.000 claims description 140
- 238000010586 diagram Methods 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 18
- 238000000844 transformation Methods 0.000 claims description 14
- 230000002779 inactivation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 210000005252 bulbus oculi Anatomy 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 201000007914 proliferative diabetic retinopathy Diseases 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000013399 early diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种糖尿病性视网膜病变图像分类方法、装置以及计算机设备。所述方法包括:对糖尿病性视网膜病变图像进行上采样处理,生成用于模型训练的训练集;将所述训练集输入到基于ConvNeXt和Swi n‑transformer的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;其中,所述融合网络包括轻量级注意力机制模块和特征融合模块,所述轻量级注意力机制模块分别对ConvNeXt和Swi n‑transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,所述特征融合模块对ConvNeXt和Swi n‑transformer的特征图进行融合并输出预测结果,通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。本申请实施例可以提高对糖尿病性视网膜病变的分类能力。
Description
技术领域
本申请属于医学图像处理技术领域,特别涉及一种糖尿病性视网膜病变图像分类方法、装置以及计算机设备。
背景技术
糖尿病性视网膜病变是糖尿病患者中最常见的并发症之一,其主要表现为视力受损。传统的眼底检查是目前诊断糖尿病性视网膜病变的主要方法,但需要专业的医生进行,不仅费时费力,而且也存在一定的误诊率。近年来,随着机器学习和计算机视觉技术的快速发展,研究者们开始探索利用机器学习和计算机视觉技术辅助糖尿病性视网膜病变的早期诊断。
在传统机器学习算法中,特征提取是一个重要的步骤。通过提取糖尿病性视网膜病变图像中的血管形态、出血和渗出等特定特征,可以帮助分类算法判断病变程度。常用的特征提取方法包括基于形态学、颜色和纹理等特征的算法。深度学习算法能够自动从大量的数据中提取有用的特征,并辅助医生进行微小病变的检测和早期诊断。此外,深度学习算法还可以通过迁移学习和数据增强等技术来提高模型的泛化能力和鲁棒性。
然而,现有的基于机器学习和深度学习的糖尿病性视网膜病变图像处理算法仍存在以下不足:
(1)针对糖尿病性视网膜病变数据集中各个类别样本数量分布不平衡所做的处理存在一定的局限性。
(2)特征提取存在一定的局限性;由于数据集分布不均衡,传统的卷积神经网络在预测时可能会偏向样本数量较多的类别,导致较少样本的类别的语义信息特征难以被充分提取。
(3)分类算法分类效果不佳。
发明内容
本申请提供了一种糖尿病性视网膜病变图像分类方法、装置以及计算机设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种糖尿病性视网膜病变图像分类方法,包括:
对糖尿病性视网膜病变图像进行上采样处理,生成用于模型训练的训练集;其中,所述上采样处理包括几何变换或/和像素变换;
将所述训练集输入到基于ConvNeXt和Swin-transformer的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;其中,所述融合网络包括轻量级注意力机制模块和特征融合模块,所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,所述特征融合模块对ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果;
通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。
本申请实施例采取的技术方案还包括:所述对糖尿病性视网膜病变图像进行上采样处理之前,还包括:
收集各个类别的糖尿病性视网膜病变图像数据集;
对所述糖尿病性视网膜病变图像数据集进行裁剪和放缩处理,并将裁剪和放缩处理后的数据集按照设定比例划分为训练集、验证集和测试集。
本申请实施例采取的技术方案还包括:所述对所述糖尿病性视网膜病变图像数据集进行裁剪和放缩处理,包括:
剪裁掉所述糖尿病性视网膜病变图像数据集的图像样本中整行或整列像素值均小于设定阈值的行或列;
利用眼球的圆形特点,以图像样本的中心位置为圆心、图像样本的高度和宽度的较小值为直径绘制一个圆,圆外像素值设置为0;
根据绘制的圆二次裁剪掉图像样本中整行或整列像素值均小于设定阈值的行或列;
将剪裁后的图像样本的高度和宽度放缩至设定像素大小;
将缩放后的数据集按照设定比例划分为训练集、验证集和测试集。
本申请实施例采取的技术方案还包括:所述对糖尿病性视网膜病变图像进行上采样处理,包括:
对所述训练集中的图像样本进行几何变换操作;所述几何变换操作方式包括水平、垂直以及对角线镜像翻转三种,所述几何变换操作过程包括:对所述训练集中除样本量最多的类别以外的其他类别进行以下几何变换操作:
针对训练集数据集x_train,设置一个变量add_list,此变量和x_train的数据信息完全一致;然后,计算样本量最多的类别与其他各个类别的样本量差异:sub=sum(i)-sum(j),其中sum(i)表示样本量最多的类别的样本量,sum(j)表示其他各个类别的样本量,并对其他各个类别分别进行如下判断:
如果sub/sum(j)小于等于1,则从x_train中随机抽取该类别下的sub张图像样本,并对抽取的sub张图像样本分别随机选择一种几何变换方式进行几何变换操作,将几何变换后的图像样本加入到add_list;
如果sub/sum(j)大于1且小于等于2,则遍历x_train两次,第一次遍历x_train时,从x_train中选择该类别的所有图像样本,并对这些图像样本分别随机选择一种几何变换方式进行第一次几何变换,将第一次几何变换后的图像加入到add_list中;在第二次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一次几何变换以外的几何变换方式进行第二次几何变换操作,并将第二次几何变换后的图像加入add_list中;
如果sub/sum(j)大于2且小于等于3,则遍历x_train三次,在第一次与第二次遍历x_train时,分别从x_train中选择该类别下的所有图像样本,并对所有图像分别随机选择一种几何变换方式进行几何变换操作,将两次几何变换后的图像加入到add_list中,且每一张图像的两次几何变换方式不同;在第三次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一和第二次几何变换以外的几何变换方式进行第三次几何变换操作,将第三次几何变换后的图像加入到add_list中;
如果sub/sum(j)大于3,则从x_train中抽取该类别下的所有图像样本,并对所有图像样本分别进行上述的三种几何变换操作,将三种几何变换操作后的图像加入到add_list中。
本申请实施例采取的技术方案还包括:所述对糖尿病性视网膜病变图像进行上采样处理,还包括:
对所述训练集中的图像样本进行像素变换操作,所述像素变换方式包括对比度增强、高斯滤波和锐化操作;所述像素变换操作过程包括:将训练集数据集x_train=add_list;计算样本量最多的类别与其他各个类别的样本量差异:sub=sum(i)-sum(j),并对其他各个类别分别进行如下判断:
如果sub/sum(j)小于等于1,则从x_train中随机抽取该类别下的sub张图像样本,并对抽取的图像样本分别随机选择一种像素变换方式进行像素变换操作,将像素变换后的图像样本加入到add_list;
如果sub/sum(j)大于1且小于等于2,则遍历x_train两次,第一次遍历x_train时,从x_train中选择该类别下的所有图像样本,并对图像样本分别随机选择一种像素变换方式进行第一次像素变换,将第一次像素变换后的图像加入到add_list中;在第二次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一次像素变换以外的像素变换方式进行第二次像素变换操作,并将第二次像素变换后的图像加入add_list中;
如果sub/sum(j)大于2且小于等于3,则遍历x_train三次,在第一次与第二次遍历x_train时,分别从x_train中选择该类别下的所有图像样本,并对所有图像分别随机选择一种像素变换方式进行几何变换操作,将两次像素变换后的图像加入到add_list中,且每一张图像的两次像素变换方式不同;在第三次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一和第二次像素变换以外的像素变换方式进行第三次像素变换操作,将第三次像素变换后的图像加入到add_list中;
如果sub/sum(j)大于3,则遍历add_list三次,每次遍历add_list时,分别从add_list中选择该类别中的所有图像样本,并对所有图像样本分别进行对比度增强、高斯噪声或/和锐化操作,将所述对比度增强、高斯噪声或/和锐化操作后的图像加入到add_list中;其中,在进行所述对比度增强、高斯噪声或/和锐化操作过程中还包括:判断所述其他类别的样本量是否与样本量最多的类别的样本量一致,如果一致则停止像素变换操作。
本申请实施例采取的技术方案还包括:所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,具体为:
对于输入特征图其中C代表通道数,H和W分别代表特征图的高度和宽度,所述轻量级注意力机制模块分别在通道和空间上进行特征加权,在进行通道特征加权计算时,首先对特征图X进行全局平均化处理,得到/>然后使用一维卷积对多个相邻通道的信息进行综合,所述多个相邻通道通过输入到注意力机制的总通道数计算得到:
如果OutChannel是偶数,则返回OutChannel+1;最后使用sigmoid激活函数进行非线性激活,得到的权重值与输入特征图进行相乘,得到基于通道上的注意力机制加权后的特征图
在进行空间位置加权计算时,首先将在通道上进行求均值,得到然后加上激活函数sigmoid进行非线性激活,得到/>最后将得到的权重值与C_Out相乘,得到基于空间位置上的注意力机制加权后的特征图
本申请实施例采取的技术方案还包括:所述特征融合模块对所述ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果,具体为:
针对输入图像H*W,分别抽取ConvNeXt与Swim-transformer的H/4*W/4特征图、H/8*W/8特征图、H/16*W/16特征图、H/32*W/32特征图以及特征提取器输出的特征图,并分别对每一个特征图进行后处理;所述后处理过程包括:
分别将ConvNeXt的H/4*W/4特征图、H/8*W/8特征图、H/16*W/16特征图和H/32*W/32特征图与Swim-transformer的H/4*W/4特征图、H/8*W/8特征图、H/16*W/16特征图和H/32*W/32特征图在通道方向进行拼接,并经过一个卷积核为3的卷积层、批归一化层以及非线性激活函数Relu,再连接全局平均池化层、随机失活层、全连接层以及激活函数softmax层,最后输出预测结果;
将ConvNeXt与Swim-transformer分别提取特征提取器输出的特征图,然后连接轻量级注意力机制模块,在经过全局平均池化后,将两个结果进行拼接,得到融合信息,将所述融合信息输入随机失活层、全连接层、非线性激活函数LeakReLu层、随机失活层、全连接层以及激活函数softmax层,最后得到预测结果。
本申请实施例采取的另一技术方案为:一种糖尿病性视网膜病变图像分类装置,包括:
数据处理模块:用于对糖尿病性视网膜病变图像进行上采样处理,生成用于模型训练的训练集;其中,所述上采样处理包括几何变换或/和像素变换;
模型训练模块:用于将所述训练集输入到基于ConvNeXt和Swin-transformer的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;其中,所述融合网络包括轻量级注意力机制模块和特征融合模块,所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,所述特征融合模块对ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果;
图像分类模块:用通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。
本申请实施例采取的又一技术方案为:一种计算机设备,所述计算机设备包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现所述糖尿病性视网膜病变图像分类方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以控制糖尿病性视网膜病变图像分类方法。
本申请实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述糖尿病性视网膜病变图像分类方法。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的糖尿病性视网膜病变图像分类方法、装置以及计算机设备通过对数据集进行上采样处理,有效解决了数据集中各个类别的样本量不均衡问题,提高了网络在实际应用中的性能。采用基于ConvNeXt和Swin-transformer的融合网络,并引入轻量级注意力机制模块以及特征融合模块,利用注意力机制模块对特征图进行编码,提高网络的计算效率,利用特征融合模块对ConvNeXt和Swim-transformer的特征图进行融合,提高了深度学习模型对糖尿病性视网膜病变的分类能力。相对于现有技术,本申请实施例具有更高的准确性和更实用的性能,为糖尿病性视网膜病变诊断和治疗等医疗领域提供了更加准确和高效的技术支持,具有重要的实用价值。
附图说明
图1是本申请实施例的糖尿病性视网膜病变图像分类方法的流程图;
图2是本申请实施例中对糖尿病性视网膜病变图像数据集的剪裁和缩放处理以及上采样处理示意图;
图3是本申请实施例的轻量级注意力机制模块结构示意图;
图4是本申请实施例的融合网络架构图;
图5为本申请实施例的糖尿病性视网膜病变图像分类装置结构示意图;
图6为本申请实施例的计算机设备结构示意图;
图7为本申请实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或计算机设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或计算机设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参阅图1,是本申请实施例的糖尿病性视网膜病变图像分类方法的流程图。本申请第二实施例的糖尿病性视网膜病变图像分类方法包括以下步骤:
S100:收集不同类别的糖尿病性视网膜病变图像数据集;
本步骤中,下载的糖尿病性视网膜病变图像数据集中包括35126份图像样本。样本类别包括正常、轻度、中度、重度和增殖性糖尿病性视网膜病变五类,五个类别的样本量分布各为25810、2443、5292、873、708。为便于说明,本申请实施例分别采用0、1、2、3、4表示正常、轻度、中度、重度和增殖性糖尿病性视网膜病变类别。可以理解,上述样本类别、样本数量和样本量分布比例具体可根据实际应用场景进行设定。
S110:对糖尿病性视网膜病变图像数据集进行裁剪和放缩处理,并将裁剪和放缩处理后的数据集按照设定比例划分为训练集、验证集和测试集;
本步骤中,请参阅图2,是本申请实施例中对糖尿病性视网膜病变图像数据集的剪裁和缩放处理以及上采样处理示意图,剪裁和缩放处理过程具体包括以下步骤:
S111:剪裁掉数据集的图像样本中整行或整列像素值均小于设定阈值的行或列(如图2中的A);其中,本申请实施例将设定阈值设置为7,以保证输入数据的准确性和一致性,具体阈值大小可根据实际应用场景进行设定;
S112:利用眼球的圆形特点,以图像样本的中心位置为圆心、图像样本的高度和宽度的较小值为直径绘制一个圆,圆外像素值设置为0,以突出眼球区域的特征(如图2中的B);
S113:根据绘制的圆二次裁剪掉图像样本中整行或整列像素值均小于设定阈值的行或列(如图2中的C);
S114:将剪裁后的图像样本的高度和宽度放缩至设定(例如256*256)像素大小;
S115:将缩放后的数据集按照设定比例(例如3:1:1)划分为训练集、验证集和测试集;其中,训练集用于训练模型,验证集用于调整模型的超参数和防止过拟合,测试集用于评估模型的性能和泛化能力。
S120:对训练集中的图像样本进行上采样处理,生成新的训练集;
本步骤中,如图2所示,本申请实施例对图像样本进行的上采样操作分别包括几何变换操作和像素变换操作,有效解决了数据集中各个类别的样本量不均衡问题,提高了网络在实际应用中的性能。具体的,本申请实施例中的上采样操作过程包括:
S121:对训练集中的图像样本进行几何变换操作,将几何变换操作后的图像加入变量add_list中;
其中,为了减少训练集中各个类别的样本量差异对模型分类的影响,本申请实施例首先对训练集中的图像样本进行几何变换操作。具体的,几何变换操作方式包括水平、垂直以及对角线镜像翻转三种(分别如图2中的E1、E2、E3所示),水平镜像翻转是指以图像垂直中轴线为中心将图像的左右两部分进行镜像对换,垂直镜像翻转是指以图像水平中轴线为中心将图像的上下两部分进行镜像对换,对角线镜像翻转是指以对角线为中心将图像进行镜像对换。通过水平、垂直以及对角线镜像翻转操作可以提升分类模型对不同角度和方向的图像识别能力。
本申请实施例中,在几何变换操作期间,需要除去样本量最多的类别,即正常(0)类别,仅对轻度(1)、中度(2)、重度(3)和增殖性糖尿病性视网膜病变(4)四个类别进行几何变换操作。具体的几何变换过程包括:
首先,针对训练集数据集x_train,设置一个变量add_list,此变量和x_train的数据信息完全一致;然后,计算样本量最多的类别与其他各个类别的样本量差异:sub=sum(i)-sum(j),其中sum(i)表示样本量最多的类别的样本量,sum(j)表示其他各个类别的样本量,并对其他各个类别分别进行如下判断:
如果sub/sum(j)小于等于1,则从x_train中随机抽取该类别下的sub张图像样本,并对抽取的sub张图像样本分别随机选择一种几何变换方式进行几何变换操作,将几何变换后的图像样本加入到add_list;
如果sub/sum(j)大于1且小于等于2,则需要遍历x_train两次,第一次遍历x_train时,从x_train中选择该类别的所有图像样本,并对这些图像样本分别随机选择一种几何变换方式进行第一次几何变换,将第一次几何变换后的图像加入到add_list中;在第二次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一次几何变换以外的几何变换方式进行第二次几何变换操作,并将第二次几何变换后的图像加入add_list中;
如果sub/sum(j)大于2且小于等于3,则需要遍历x_train三次,在第一次与第二次遍历x_train时,分别从x_train中选择该类别下的所有图像样本,并对所有图像分别随机选择一种几何变换方式进行几何变换操作,将两次几何变换后的图像加入到add_list中,且每一张图像的两次几何变换方式不同;在第三次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一和第二次几何变换以外的几何变换方式进行第三次几何变换操作,将第三次几何变换后的图像加入到add_list中;
如果sub/sum(j)大于3,则从x_train中抽取该类别下的所有图像样本,并对所有图像样本分别进行上述的三种几何变换操作,将三种几何变换操作后的图像加入到add_list中。
S122:对训练集中的图像样本进行像素变换操作,将像素变换操作后的图像加入变量add_list中;
本申请实施例中,为了避免在几何变换后的图像样本量仍没有达到平衡,再次对训练集图像进行像素变换操作。具体的,像素变换方式包括对比度增强、高斯滤波和锐化操作三种(分别如图2中的F1、F2、F3所示)。其中,对比度增强是通过调整图像中像素值的范围,使得图像的明暗差异更加明显。高斯滤波操作是一种平滑图像的方法,它通过应用高斯核对图像进行卷积运算,从而减少图像中的噪声和细节。锐化操作是一种增强图像边缘和细节的方法。它通过应用卷积核对图像进行卷积运算。
同样地,在像素变换操作期间,也需要除去样本量最多的正常(0)类别,仅对轻度(1)、中度(2)、重度(3)和增殖性糖尿病性视网膜病变(4)四个类别进行几何变换操作。具体的像素变换过程与几何变换过程类似,具体包括:
首先,将训练集数据集x_train=add_list;计算样本量最多的类别与其他各个类别的样本量差异:sub=sum(i)-sum(j),并对其他各个类别分别进行如下判断:
如果sub/sum(j)小于等于1,则从x_train中随机抽取该类别下的sub张图像样本,并对抽取的图像样本分别随机选择一种像素变换方式进行像素变换操作,将像素变换后的图像样本加入到add_list;
如果sub/sum(j)大于1且小于等于2,则需要遍历x_train两次,第一次遍历x_train时,从x_train中选择该类别下的所有图像样本,并对图像样本分别随机选择一种像素变换方式进行第一次像素变换,将第一次像素变换后的图像加入到add_list中;在第二次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一次像素变换以外的像素变换方式进行第二次像素变换操作,并将第二次像素变换后的图像加入add_list中;
如果sub/sum(j)大于2且小于等于3,则需要遍历x_train三次,在第一次与第二次遍历x_train时,分别从x_train中选择该类别下的所有图像样本,并对所有图像分别随机选择一种像素变换方式进行几何变换操作,将两次像素变换后的图像加入到add_list中,且每一张图像的两次像素变换方式不同;在第三次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一和第二次像素变换以外的像素变换方式进行第三次像素变换操作,将第三次像素变换后的图像加入到add_list中;
如果sub/sum(j)大于3,则遍历add_list三次,每次遍历add_list时,分别从add_list中选择该类别中的所有图像样本,并对所有图像样本分别进行对比度增强、高斯噪声或/和锐化操作,将所述对比度增强、高斯噪声或/和锐化操作后的图像加入到add_list中;其中,在进行对比度增强、高斯噪声或/和锐化操作过程中还包括:判断其他类别的样本量是否与样本量最多的类别的样本量一致,如果一致则停止像素变换操作。
S130:将新的训练集输入到搭建好的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;
本步骤中,融合网络由基于卷积神经网络架构的ConvNeXt与基于transformer架构的Swin-transformer为基础,能够更加全面的捕捉输入图像的局部特征信息和全局特征信息,并引入了轻量级注意力机制模块以及特征融合模块,轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,特征融合模块对ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果,提高深度学习模型对糖尿病性视网膜病变的分类能力。
具体的,请参阅图3,是本申请实施例的轻量级注意力机制模块结构示意图。对于输入特征图其中C代表通道数,H和W分别代表特征图的高度和宽度,轻量级注意力机制模块分别在通道和空间上进行特征加权。在进行通道特征加权计算时,首先对特征图X进行全局平均化处理,得到/>然后使用一维卷积对多个相邻通道的信息进行综合,所述多个相邻通道通过输入到注意力机制的总通道数计算得到:
如果得到的OutChannel是偶数,则返回OutChannel+1。最后使用sigmoid激活函数进行非线性激活,得到的权重值与输入特征图进行相乘,得到基于通道上的注意力机制加权后的特征图
在进行空间位置加权计算时,首先将在通道上进行求均值,得到然后加上激活函数sigmoid进行非线性激活,得到/>最后将得到的权重值与C_Out相乘,得到基于空间位置上的注意力机制加权后的特征图
如图4所示,是本申请实施例的融合网络架构图。融合网络分别从不同大小的特征图进行融合分类,其中(B)为封装的卷积层操作,(C)为第一种分类层输出操作,(D)为第二种分类层输出操作,LAB、Concat、Conv2D、BN、Relu、GAP、Dropout、Dense和LeakReLu分别代表注意力机制、特征拼接层、卷积层、批归一化层、激活函数、全局平均池化、随机失活层、全连接层和激活函数。
本申请实施例的融合网络的训练过程具体为:针对输入图像256*256,分别抽取ConvNeXt与Swim-transformer的64*64特征图、32*32特征图、16*16特征图、8*8特征图以及特征提取器输出的特征图,并分别对每一个特征图进行后处理,得到最终的输出结果。后处理过程具体为:
分别将ConvNeXt的64*64特征图、32*32特征图、16*16特征图和8*8特征图与Swim-transformer的64*64特征图、32*32特征图、16*16特征图和8*8特征图在通道方向进行拼接,并经过一个卷积核为3的卷积层、批归一化层以及非线性激活函数Relu,再连接全局平均池化层、随机失活层、全连接层以及激活函数softmax层,最后输出预测结果。
将ConvNeXt与Swim-transformer分别提取特征提取器输出的特征图,然后连接轻量级注意力机制模块,在经过全局平均池化后,将两个结果进行拼接,得到融合信息,将所述融合信息输入随机失活层、全连接层、非线性激活函数LeakReLu层、随机失活层、全连接层以及激活函数softmax层,最后得到预测结果。
需要注意的是:64*64特征图、32*32特征图、16*16特征图、8*8特征图的信息融合仅仅在模型训练过程中有效,属于一个辅助分类器。在模型推理过程中,只有全局信息的融合输出才是有效的。
S140:通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。
基于上述,本申请实施例的糖尿病性视网膜病变图像分类方法通过对数据集进行上采样处理,有效解决了数据集中各个类别的样本量不均衡问题,提高了网络在实际应用中的性能。采用基于ConvNeXt和Swin-transformer的融合网络,并引入轻量级注意力机制模块以及特征融合模块,利用注意力机制模块对特征图进行编码,提高网络的计算效率,利用特征融合模块对ConvNeXt和Swim-transformer的特征图进行融合,提高了深度学习模型对糖尿病性视网膜病变的分类能力。相对于现有技术,本申请实施例具有更高的准确性和更实用的性能,为糖尿病性视网膜病变诊断和治疗等医疗领域提供了更加准确和高效的技术支持,具有重要的实用价值。
请参阅图5,为本申请实施例的糖尿病性视网膜病变图像分类装置结构示意图。本申请实施例的糖尿病性视网膜病变图像分类装置40包括:
数据处理模块41:用于对糖尿病性视网膜病变图像进行上采样处理,生成用于模型训练的训练集;其中,所述上采样处理包括几何变换或/和像素变换;
模型训练模块42:用于将所述训练集输入到基于ConvNeXt和Swin-transformer的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;其中,所述融合网络包括轻量级注意力机制模块和特征融合模块,所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,所述特征融合模块对ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果;
图像分类模块43:用于通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
本申请实施例提供的装置可以应用在前述方法实施例中,详情参见上述方法实施例的描述,在此不再赘述。
请参阅图6,为本申请实施例的计算机设备结构示意图。该计算机设备50包括:
存储有可执行程序指令的存储器51;
与存储器51连接的处理器52;
处理器52用于调用存储器51中存储的可执行程序指令并执行以下步骤:对糖尿病性视网膜病变图像进行上采样处理,生成用于模型训练的训练集;其中,所述上采样处理包括几何变换或/和像素变换;将所述训练集输入到基于ConvNeXt和Swin-transformer的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;其中,所述融合网络包括轻量级注意力机制模块和特征融合模块,所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,所述特征融合模块对ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果;通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。
其中,处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参阅图7,为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现以下步骤的程序指令61:对糖尿病性视网膜病变图像进行上采样处理,生成用于模型训练的训练集;其中,所述上采样处理包括几何变换或/和像素变换;将所述训练集输入到基于ConvNeXt和Swin-transformer的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;其中,所述融合网络包括轻量级注意力机制模块和特征融合模块,所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,所述特征融合模块对ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果;通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。其中,该程序指令61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络计算机设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序指令的介质,或者是计算机、服务器、手机、平板等终端计算机设备。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种糖尿病性视网膜病变图像分类方法,其特征在于,包括:
对糖尿病性视网膜病变图像进行上采样处理,生成用于模型训练的训练集;其中,所述上采样处理包括几何变换或/和像素变换;
将所述训练集输入到基于ConvNeXt和Swin-transformer的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;其中,所述融合网络包括轻量级注意力机制模块和特征融合模块,所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,所述特征融合模块对ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果;
通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。
2.根据权利要求1所述的糖尿病性视网膜病变图像分类方法,其特征在于,所述对糖尿病性视网膜病变图像进行上采样处理之前,还包括:
收集各个类别的糖尿病性视网膜病变图像数据集;
对所述糖尿病性视网膜病变图像数据集进行裁剪和放缩处理,并将裁剪和放缩处理后的数据集按照设定比例划分为训练集、验证集和测试集。
3.根据权利要求2所述的糖尿病性视网膜病变图像分类方法,其特征在于,所述对所述糖尿病性视网膜病变图像数据集进行裁剪和放缩处理,包括:
剪裁掉所述糖尿病性视网膜病变图像数据集的图像样本中整行或整列像素值均小于设定阈值的行或列;
利用眼球的圆形特点,以图像样本的中心位置为圆心、图像样本的高度和宽度的较小值为直径绘制一个圆,圆外像素值设置为0;
根据绘制的圆二次裁剪掉图像样本中整行或整列像素值均小于设定阈值的行或列;
将剪裁后的图像样本的高度和宽度放缩至设定像素大小;
将缩放后的数据集按照设定比例划分为训练集、验证集和测试集。
4.根据权利要求3所述的糖尿病性视网膜病变图像分类方法,其特征在于,所述对糖尿病性视网膜病变图像进行上采样处理,包括:
对所述训练集中的图像样本进行几何变换操作;所述几何变换操作方式包括水平、垂直以及对角线镜像翻转三种,所述几何变换操作过程包括:对所述训练集中除样本量最多的类别以外的其他类别进行以下几何变换操作:
针对训练集数据集x_train,设置一个变量add_list,此变量和x_train的数据信息完全一致;然后,计算样本量最多的类别与其他各个类别的样本量差异:sub=sum(i)-sum(j),其中sum(i)表示样本量最多的类别的样本量,sum(j)表示其他各个类别的样本量,并对其他各个类别分别进行如下判断:
如果sub/sum(j)小于等于1,则从x_train中随机抽取该类别下的sub张图像样本,并对抽取的sub张图像样本分别随机选择一种几何变换方式进行几何变换操作,将几何变换后的图像样本加入到add_list;
如果sub/sum(j)大于1且小于等于2,则遍历x_train两次,第一次遍历x_train时,从x_train中选择该类别的所有图像样本,并对这些图像样本分别随机选择一种几何变换方式进行第一次几何变换,将第一次几何变换后的图像加入到add_list中;在第二次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一次几何变换以外的几何变换方式进行第二次几何变换操作,并将第二次几何变换后的图像加入add_list中;
如果sub/sum(j)大于2且小于等于3,则遍历x_train三次,在第一次与第二次遍历x_train时,分别从x_train中选择该类别下的所有图像样本,并对所有图像分别随机选择一种几何变换方式进行几何变换操作,将两次几何变换后的图像加入到add_list中,且每一张图像的两次几何变换方式不同;在第三次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一和第二次几何变换以外的几何变换方式进行第三次几何变换操作,将第三次几何变换后的图像加入到add_list中;
如果sub/sum(j)大于3,则从x_train中抽取该类别下的所有图像样本,并对所有图像样本分别进行上述的三种几何变换操作,将三种几何变换操作后的图像加入到add_list中。
5.根据权利要求4所述的糖尿病性视网膜病变图像分类方法,其特征在于,所述对糖尿病性视网膜病变图像进行上采样处理,还包括:
对所述训练集中的图像样本进行像素变换操作,所述像素变换方式包括对比度增强、高斯滤波和锐化操作;所述像素变换操作过程包括:将训练集数据集x_train=add_list;计算样本量最多的类别与其他各个类别的样本量差异:sub=sum(i)-sum(j),并对其他各个类别分别进行如下判断:
如果sub/sum(j)小于等于1,则从x_train中随机抽取该类别下的sub张图像样本,并对抽取的图像样本分别随机选择一种像素变换方式进行像素变换操作,将像素变换后的图像样本加入到add_list;
如果sub/sum(j)大于1且小于等于2,则遍历x_train两次,第一次遍历x_train时,从x_train中选择该类别下的所有图像样本,并对图像样本分别随机选择一种像素变换方式进行第一次像素变换,将第一次像素变换后的图像加入到add_list中;在第二次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一次像素变换以外的像素变换方式进行第二次像素变换操作,并将第二次像素变换后的图像加入add_list中;
如果sub/sum(j)大于2且小于等于3,则遍历x_train三次,在第一次和第二次遍历x_train时,分别从x_train中选择该类别下的所有图像样本,并对所有图像分别随机选择一种像素变换方式进行几何变换操作,将两次像素变换后的图像加入到add_list中,且每一张图像的两次像素变换方式不同;在第三次遍历x_train时,从x_train中随机抽取sum(i)-sum(j)张图像样本,并对抽取的图像样本分别随机选择一种除第一和第二次像素变换以外的像素变换方式进行第三次像素变换操作,将第三次像素变换后的图像加入到add_list中;
如果sub/sum(j)大于3,则遍历add_list三次,每次遍历add_list时,分别从add_list中选择该类别中的所有图像样本,并对所有图像样本分别进行对比度增强、高斯噪声或/和锐化操作,将所述对比度增强、高斯噪声或/和锐化操作后的图像加入到add_list中;其中,在进行所述对比度增强、高斯噪声或/和锐化操作过程中还包括:判断所述其他类别的样本量是否与样本量最多的类别的样本量一致,如果一致则停止像素变换操作。
6.根据权利要求1至5任一项所述的糖尿病性视网膜病变图像分类方法,其特征在于,所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,具体为:
对于输入特征图其中C代表通道数,H和W分别代表特征图的高度和宽度,所述轻量级注意力机制模块分别在通道和空间上进行特征加权,在进行通道特征加权计算时,首先对特征图X进行全局平均化处理,得到/>然后使用一维卷积对多个相邻通道的信息进行综合,所述多个相邻通道通过输入到注意力机制的总通道数计算得到:
如果OutChannel是偶数,则返回OutChannel+1;最后使用sigmoid激活函数进行非线性激活,得到的权重值与输入特征图进行相乘,得到基于通道上的注意力机制加权后的特征图
在进行空间位置加权计算时,首先将在通道上进行求均值,得到然后加上激活函数sigmoid进行非线性激活,得到/>最后将得到的权重值与C_Out相乘,得到基于空间位置上的注意力机制加权后的特征图
7.根据权利要求6所述的糖尿病性视网膜病变图像分类方法,其特征在于,所述特征融合模块对所述ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果,具体为:
针对输入图像H*W,分别抽取ConvNeXt与Swim-transformer的H/4*W/4特征图、H/8*W/8特征图、H/16*W/16特征图、H/32*W/32特征图以及特征提取器输出的特征图,并分别对每一个特征图进行后处理;所述后处理过程包括:
分别将ConvNeXt的H/4*W/4特征图、H/8*W/8特征图、H/16*W/16特征图和H/32*W/32特征图与Swim-transformer的H/4*W/4特征图、H/8*W/8特征图、H/16*W/16特征图和H/32*W/32特征图在通道方向进行拼接,并经过一个卷积核为3的卷积层、批归一化层以及非线性激活函数Relu,再连接全局平均池化层、随机失活层、全连接层以及激活函数softmax层,最后输出预测结果;
将ConvNeXt与Swim-transformer分别提取特征提取器输出的特征图,然后连接轻量级注意力机制模块,在经过全局平均池化后,将两个结果进行拼接,得到融合信息,将所述融合信息输入随机失活层、全连接层、非线性激活函数LeakReLu层、随机失活层、全连接层以及激活函数softmax层,最后得到预测结果。
8.一种糖尿病性视网膜病变图像分类装置,其特征在于,包括:
数据处理模块:用于对糖尿病性视网膜病变图像进行上采样处理,生成用于模型训练的训练集;其中,所述上采样处理包括几何变换或/和像素变换;
模型训练模块:用于将所述训练集输入到基于ConvNeXt和Swin-transformer的融合网络进行训练,得到训练好的糖尿病性视网膜病变图像分类模型;其中,所述融合网络包括轻量级注意力机制模块和特征融合模块,所述轻量级注意力机制模块分别对ConvNeXt和Swin-transformer的特征提取器提取到的特征图进行基于通道和基于空间位置的特征加权,所述特征融合模块对ConvNeXt和Swin-transformer的特征图进行融合并输出预测结果;
图像分类模块:用通过训练好的糖尿病性视网膜病变图像分类模型对待分类的糖尿病性视网膜病变图像进行分类。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现权利要求1-7任一项所述的糖尿病性视网膜病变图像分类方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以控制糖尿病性视网膜病变图像分类方法。
10.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至7任一项所述糖尿病性视网膜病变图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388977.0A CN117496231B (zh) | 2023-10-24 | 2023-10-24 | 糖尿病性视网膜病变图像分类方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388977.0A CN117496231B (zh) | 2023-10-24 | 2023-10-24 | 糖尿病性视网膜病变图像分类方法、装置以及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117496231A true CN117496231A (zh) | 2024-02-02 |
CN117496231B CN117496231B (zh) | 2024-07-16 |
Family
ID=89673556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311388977.0A Active CN117496231B (zh) | 2023-10-24 | 2023-10-24 | 糖尿病性视网膜病变图像分类方法、装置以及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496231B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210570A (zh) * | 2019-06-10 | 2019-09-06 | 上海延华大数据科技有限公司 | 基于深度学习的糖尿病视网膜病变图像多分类方法 |
US20200234445A1 (en) * | 2018-04-13 | 2020-07-23 | Bozhon Precision Industry Technology Co., Ltd. | Method and system for classifying diabetic retina images based on deep learning |
AU2020103938A4 (en) * | 2020-12-07 | 2021-02-11 | Capital Medical University | A classification method of diabetic retinopathy grade based on deep learning |
CN114266757A (zh) * | 2021-12-25 | 2022-04-01 | 北京工业大学 | 一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法 |
CN115641286A (zh) * | 2022-07-15 | 2023-01-24 | 长沙理工大学 | 糖尿病视网膜病变的特征分类方法、系统、设备及介质 |
CN116246103A (zh) * | 2023-02-07 | 2023-06-09 | 齐鲁工业大学(山东省科学院) | 糖尿病视网膜病变图像分类方法及系统 |
US20230316510A1 (en) * | 2022-04-01 | 2023-10-05 | Oregon Health & Science University | Systems and methods for generating biomarker activation maps |
-
2023
- 2023-10-24 CN CN202311388977.0A patent/CN117496231B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200234445A1 (en) * | 2018-04-13 | 2020-07-23 | Bozhon Precision Industry Technology Co., Ltd. | Method and system for classifying diabetic retina images based on deep learning |
CN110210570A (zh) * | 2019-06-10 | 2019-09-06 | 上海延华大数据科技有限公司 | 基于深度学习的糖尿病视网膜病变图像多分类方法 |
AU2020103938A4 (en) * | 2020-12-07 | 2021-02-11 | Capital Medical University | A classification method of diabetic retinopathy grade based on deep learning |
CN114266757A (zh) * | 2021-12-25 | 2022-04-01 | 北京工业大学 | 一种基于多尺度融合注意力机制的糖尿病性视网膜病变分级方法 |
US20230316510A1 (en) * | 2022-04-01 | 2023-10-05 | Oregon Health & Science University | Systems and methods for generating biomarker activation maps |
CN115641286A (zh) * | 2022-07-15 | 2023-01-24 | 长沙理工大学 | 糖尿病视网膜病变的特征分类方法、系统、设备及介质 |
CN116246103A (zh) * | 2023-02-07 | 2023-06-09 | 齐鲁工业大学(山东省科学院) | 糖尿病视网膜病变图像分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
谭嘉辰 等: "SSM: 基于孪生网络的糖尿病视网膜眼底图像分类模型", 《南京大学学报(自然科学)》, vol. 59, no. 3, 31 May 2023 (2023-05-31), pages 425 - 434 * |
黄文博 等: "融合注意力的ConvNeXt视网膜病变自动分级", 《光学 精密工程》, vol. 30, no. 17, 30 September 2022 (2022-09-30), pages 2147 - 2154 * |
Also Published As
Publication number | Publication date |
---|---|
CN117496231B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275129B (zh) | 一种图像数据的增广策略选取方法及系统 | |
Khojasteh et al. | Fundus images analysis using deep features for detection of exudates, hemorrhages and microaneurysms | |
US11361192B2 (en) | Image classification method, computer device, and computer-readable storage medium | |
US10489909B2 (en) | Method of automatically detecting microaneurysm based on multi-sieving convolutional neural network | |
CN110276745B (zh) | 一种基于生成对抗网络的病理图像检测算法 | |
CN111860169B (zh) | 皮肤分析方法、装置、存储介质及电子设备 | |
CN111882566B (zh) | 视网膜图像的血管分割方法、装置、设备及存储介质 | |
CN110751636B (zh) | 一种基于改进型编解码网络的眼底图像视网膜动脉硬化检测方法 | |
WO2022088665A1 (zh) | 病灶分割方法、装置及存储介质 | |
CN107292835B (zh) | 一种眼底图像视网膜血管自动矢量化的方法及装置 | |
JP7355434B2 (ja) | 眼底画像認識方法及び装置並びに設備 | |
CN112862756A (zh) | 识别甲状腺肿瘤病理图像中病变类型及基因突变的方法 | |
Sengan et al. | Images super-resolution by optimal deep AlexNet architecture for medical application: a novel DOCALN | |
CN111916206A (zh) | 一种基于级联的ct影像辅助诊断系统 | |
CN113592893A (zh) | 一种确定主体和精准化边缘相结合的图像前景分割方法 | |
Ho et al. | Deep ensemble learning for retinal image classification | |
Ashwini et al. | Grading diabetic retinopathy using multiresolution based CNN | |
Zhang et al. | Medical image fusion based on quasi-cross bilateral filtering | |
JP2024519459A (ja) | 乳がんの病変領域を判別するための人工ニューラルネットワークの学習方法、及びこれを行うコンピュータシステム | |
CN114494230A (zh) | 乳腺病灶分割装置、模型训练方法及电子设备 | |
Ning et al. | Multiscale context-cascaded ensemble framework (MsC 2 EF): application to breast histopathological image | |
Kiefer et al. | Automated Fundus Image Standardization Using a Dynamic Global Foreground Threshold Algorithm | |
CN116894820B (zh) | 一种色素性皮肤病分类检测方法、装置、设备及存储介质 | |
CN117496231B (zh) | 糖尿病性视网膜病变图像分类方法、装置以及计算机设备 | |
He et al. | Ultrasonic Image Diagnosis of Liver and Spleen Injury Based on a Double‐Channel Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |