CN111259982B - 一种基于注意力机制的早产儿视网膜图像分类方法和装置 - Google Patents

一种基于注意力机制的早产儿视网膜图像分类方法和装置 Download PDF

Info

Publication number
CN111259982B
CN111259982B CN202010089915.XA CN202010089915A CN111259982B CN 111259982 B CN111259982 B CN 111259982B CN 202010089915 A CN202010089915 A CN 202010089915A CN 111259982 B CN111259982 B CN 111259982B
Authority
CN
China
Prior art keywords
attention
feature map
layer
module
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010089915.XA
Other languages
English (en)
Other versions
CN111259982A (zh
Inventor
陈新建
彭圆圆
朱伟芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202010089915.XA priority Critical patent/CN111259982B/zh
Publication of CN111259982A publication Critical patent/CN111259982A/zh
Application granted granted Critical
Publication of CN111259982B publication Critical patent/CN111259982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于注意力机制的早产儿视网膜图像分类方法和装置,包括步骤:将待识别的二维视网膜眼底图像进行预处理,得到预处理后的二维视网膜眼底图像;将预处理后的二维视网膜眼底图像输入到预先训练好的深度注意力网络模型中,输出图像的分类结果识别出早产儿视网膜病变ROP图像;所述深度注意力网络模型为在原始ResNet18网络的第三个残差层和第四个残差层后分别添加互补残差注意力模块和通道注意力SE模块。本发明能够获取丰富且重要的全局和局部信息,使得网络能够学习到正确的病变特征,从而使得分类网络能较好解决病变与背景之间极大的数据不平衡问题,进而提高深度注意力网络模型的分类性能。

Description

一种基于注意力机制的早产儿视网膜图像分类方法和装置
技术领域
本发明涉及视网膜图像分类技术领域,具体涉及一种基于注意力机制的早产儿视网膜图像分类方法和装置。
背景技术
早产儿视网膜病变(Retinopathy of Prematurity,ROP)是一种视网膜血管增生性疾病,主要见于早产儿(胎龄小于32周)和低出生体重儿(体重低于1500克)及高水平的氧气补充,是全球儿童致盲的主要原因。由于成像质量受焦点、光照、眼球运动等因素的影响,早产儿视网膜眼底彩照图像存在质量非常低、病变区域与背景分布不平衡等问题,因此基于视网膜眼底彩照的ROP自动识别存在很大的挑战性。
近年来,随着深度学习的迅速发展,许多基于卷积神经网络(ConvolutionalNeural Networks,CNN)的深度学习方法应用于医学图像分析。Worrall等人使用ImageNet预训练的GoogLeNet网络对ROP中是否存在附加疾病(即血管的迂曲和膨胀)进行了分类,识别出异常和正常图像,这是首次尝试使用深度神经网络来识别附加疾病。Wang等人利用ImageNet上预训练的Inception-v2网络识别ROP的存在和严重程度。Zhang等人使用在ImageNet上预训练的VGG16网络来识别ROP。但是,大多数基于CNN(卷积神经网络)的方法都没有考虑ROP图像中疾病特征与背景分布不平衡导致ROP图像分类不准确的问题。
发明内容
为解决现有技术中的不足,本发明提供一种基于注意力机制的早产儿视网膜图像分类方法和装置,解决了现有技术没有考虑ROP图像中疾病特征与背景分布不平衡导致ROP图像分类不准确的问题。
为了实现上述目标,本发明采用如下技术方案:一种基于注意力机制的早产儿视网膜图像分类方法,包括步骤:
将待识别的二维视网膜眼底图像进行预处理,得到预处理后的二维视网膜眼底图像;
将预处理后的二维视网膜眼底图像输入到预先训练好的深度注意力网络模型中,输出图像的分类结果识别出早产儿视网膜病变ROP图像;
所述深度注意力网络模型为在原始ResNet18网络的第三个残差层和第四个残差层后分别添加互补残差注意力模块和通道注意力SE模块。
进一步的,所述互补残差注意力模块包括:通道注意力SE模块、最大池化层、平均池化层、二维卷积层、sigmoid层;SE模块用于将输入的特征图在通道维度上重新标定得到新的特征图,重新标定后的新的特征图以通道为单位通过最大池化层、平均池化层分别进行最大池化和平均池化操作,并将两者的结果在通道方向进行合并,再经过一个二维卷积和sigmoid激活函数得到特征图空间权重,再将特征图空间权重与原始ResNet18网络的第三个残差层的输出特征图进行点积,得到点积后的特征图,将第三个残差层的输出特征图乘以残差因子1-E后与点积之后的特征图进行相加,得到输出的特征图;E为:互补残差注意力模块中SE模块计算得到的特征图的权重系数。
进一步的,所述通道注意力SE模块包括:全局平均池化层、两个1*1卷积层、修正线性单元层和sigmoid层;将高度、宽度和通道数分别为h、w和C的特征图先经过全局平均池化层进行压缩操作,压缩得到C*1*1大小的特征图,再经过一个
Figure BDA0002383328950000021
的卷积得到
Figure BDA0002383328950000022
大小的特征图,r表示压缩率,接着经过一个修正线性单元层,进行了非线性变化操作,得到了新的
Figure BDA0002383328950000023
的特征图;再经过一个C*1*1的卷积得到大小为C*1*1的特征图,再经过sigmoid激活函数,得到C个特征图的权重系数E,最后将输入的特征图与得到的C个特征图的权重系数E进行点积,得到经过选择后的具有病变特征信息的特征图。
进一步的,所述深度注意力网络模型训练过程为:
1)将正常和异常的二维眼底图像按比例分为训练数据集和验证数据集,并进行预处理操作,对训练数据集中的图像数据进行数据增强;
2)将ResNet18网络在ImageNet数据集上训练的权重迁移至预先构建的深度注意力网络模型上,将训练数据集中的图像输入到迁移后的深度注意力网络模型,进行一次前向传播,得到每一分类的得分值,通过softmax激活函数,得出每一类的预测值,并计算所述预测值与真实分类值之间的交叉熵损失函数los s值,用Adam优化算法来最小化所述交叉熵损失函数loss值;
3)通过验证数据集验证模型,保存验证数据集上准确率最好的模型,得到训练好的深度注意力网络模型。
进一步的,所述预测值与真实分类值之间的交叉熵损失函数loss值通过下述公式计算:
Figure BDA0002383328950000031
其中,L表示预测值与真实分类值之间的交叉熵损失函数loss值,m表示训练过程中样本总数量,x表示输入的训练数据集中的图像,y表示真实分类值,a表示深度注意力网络模型的预测值,σ表示softmax激活函数,z表示得分值。
进一步的,所述预处理操作包括:下采样和减均值。
一种基于注意力机制的早产儿视网膜图像分类装置,包括:
预处理模块,用于将待识别的二维视网膜眼底图像进行预处理,得到预处理后的二维视网膜眼底图像;
识别模块,用于将预处理后的二维视网膜眼底图像输入到预先训练好的深度注意力网络模型中,输出图像的分类结果识别出早产儿视网膜病变ROP图像;
所述深度注意力网络模型为在原始ResNet18网络的第三个残差层和第四个残差层后分别添加互补残差注意力模块和通道注意力SE模块。
进一步的,所述互补残差注意力模块包括:通道注意力SE模块、最大池化层、平均池化层、二维卷积层、sigmoid层;SE模块用于将输入的特征图在通道维度上重新标定得到新的特征图,重新标定后的新的特征图以通道为单位通过最大池化层、平均池化层分别进行最大池化和平均池化操作,并将两者的结果在通道方向进行合并,再经过一个二维卷积和sigmoid激活函数得到特征图空间权重,再将特征图空间权重与原始ResNet18网络的第三个残差层的输出特征图进行点积,得到点积后的特征图,将第三个残差层的输出特征图乘以残差因子1-E后与点积之后的特征图进行相加,得到输出的特征图;所述E为:互补残差注意力模块中SE模块计算得到的特征图的权重系数。
进一步的,所述通道注意力SE模块包括:全局平均池化层、两个1*1卷积层、修正线性单元层和sigmoid层;将高度、宽度和通道数分别为h、w和C的特征图先经过全局平均池化层进行压缩操作,压缩得到C*1*1大小的特征图,再经过一个
Figure BDA0002383328950000041
的卷积得到
Figure BDA0002383328950000042
大小的特征图,r表示压缩率,接着经过一个修正线性单元层(ReLU激活函数),进行了非线性变化操作,得到了新的
Figure BDA0002383328950000043
的特征图;再经过一个C*1*1的卷积得到大小为C*1*1的特征图,再经过sigmoid激活函数,得到C个特征图的权重系数E,最后将输入的特征图与得到的C个特征图的权重系数E进行点积,得到经过选择后的具有病变特征信息的特征图。
进一步的,所述深度注意力网络模型训练过程为:
1)将正常和异常的二维眼底图像按比例分为训练数据集和验证数据集,并进行预处理操作,对训练数据集中的图像数据进行数据增强;
2)将ResNet18网络在ImageNet数据集上训练的权重迁移至预先构建的深度注意力网络模型上,将训练数据集中的图像输入到迁移后的深度注意力网络模型,进行一次前向传播,得到每一分类的得分值,通过softmax激活函数,得出每一类的预测值,并计算所述预测值与真实分类值之间的交叉熵损失函数loss值,用Adam优化算法来最小化所述交叉熵损失函数loss值;
3)通过验证数据集验证模型,保存验证数据集上准确率最好的模型,得到训练好的深度注意力网络模型。
本发明所达到的有益效果:本发明首次提出了一种基于注意力机制的深度卷积网络并结合迁移学习实现对早产儿视网膜眼底图像中正常/异常的自动分类方法,能对输入的任意尺寸的二维视网膜眼底图像进行分类,该方法依赖基于注意力机制、深度卷积网络和迁移学习的早产儿视网膜图像分类模型,提高识别和分类效率,降低时间成本,可靠性高,为后续的ROP自动分级奠定基础;
本发明能够获取丰富且重要的全局和局部信息,使得网络能够学习到正确的病变特征,从而使得分类网络能较好解决病变与背景之间极大的数据不平衡问题,进而提高深度注意力网络模型的分类性能。
附图说明
图1是本发明实施例中进行分类的二维视网膜眼底图像的示意图;
图2是本发明实施例中的深度注意力网络模型;
图3是本发明实施例中基线网络ResNet18网络;
图4是本发明实施例中基线网络ResNet18网络中的残差层结构图;
图5是本发明实施例中互补残差注意力模块结构图;
图6是本发明实施例中SE模块结构图;
图7是本发明实施例中原始ResNet18网络和本发明分类的混淆矩阵示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:
一种基于注意力机制的早产儿视网膜图像分类方法,包括步骤:
步骤1,将待识别的二维视网膜眼底图像进行预处理,得到预处理后的二维视网膜眼底图像;
预处理包括:下采样和减均值的标准化处理;
如图1所示,本发明中进行分类的二维视网膜眼底图像的示意图:(a)正常图像,(b)1期,(c)2期,(d)3期,(e)4期,(f)5期,(g)附加疾病。
为了防止GPU内存溢出,将原始640×480的二维视网膜眼底图像利用双线性插值进行下采样到320×240;为了提高图像的对比度,对图像进行减均值的标准化处理,即用原始图像的像素值减去其平均像素值。
步骤2,将步骤1中预处理后的二维视网膜眼底图像输入到预先训练好的深度注意力网络模型中,输出图像的分类结果,并标注标签,识别出早产儿视网膜病变ROP图像。
标签“0”表示将输入的二维视网膜眼底图像自动识别为正常图像,标签“1”表示将输入的二维视网膜眼底图像自动识别为ROP图像。其中,所述深度注意力网络模型由下述步骤训练生成,包括:
1),将来自550个受试者的8351张(4752张正常图像和3599张ROP图像)二维视网膜眼底图像,按7:3的比例分为训练数据集和验证数据集,将来自100个受试者的1443张(850张正常图像和593张ROP图像)二维视网膜眼底图像作为验证集,并进行预处理操作,包括下采样和减均值的标准化处理,与上述步骤1中相同。此外,为了防止过拟合和增强深度注意力网络模型的泛化能力,还需对训练集中的图像数据进行数据增强,所述数据增强的方式包括一种或多种:旋转30度、水平翻转、垂直翻转和仿射变换。
2),构建深度注意力网络模型:所述深度注意力网络模型是在原始ResNet18网络的基础上添加互补残差注意力模块(CRAB)和通道注意力模块(SE模块),构建深度注意力网络模型。其中,ResNet18表示权重层有18层的残差网络,权重层在此处指的是卷积层和全连接层。
本发明的网络是基于原始ResNet18卷积神经网络(又称“基线网络”)的改进,针对病变特征与背景分布的不平衡关系,结合空间注意力和通道注意力设计了互补残差注意力模块(Complementary Residual Attention Block,CRAB),并将通道注意力模块(SE模块)应用到网络中,在原始ResNet18网络的基础上添加了互补残差注意力模块(CRAB)和SE模块。
附图2是本发明所设计和搭建的适用于早产儿视网膜图像ROP识别的深度注意力网络模型。本发明的深度注意力网络在二维卷积神经网络ResNet18网络上进行改进的,原始ResNet18卷积神经网络(见附图3)是一个18层的残差网络,由一个卷积核大小是7*7,步长为2的二维卷积层、一个最大池化层、4个残差层(见附图4)、一个全局平均池化层、一个全连接层和一个softmax输出层组成的,其中,如图4所示,残差层具有4个卷积核的大小为3*3二维卷积层,且卷积核的步长是1或者2。最大池化层的核的大小为3*3,步长为2,目的是为了不过早合并深度信息,而且还可以减少参数量和增强鲁棒性。X表示残差层的输入,Y表示残差层的输出,ReLU(修正线性单元层)表示激活函数,用于非线性变换。
本发明在原始ResNet18网络的第三个残差层和第四个残差层后面分别添加互补残差注意力模块(CRAB)和SE模块,输出语义丰富的特征图,然后再经过全局平均池化层、全连接层和softmax层输出预测结果(“正常”图像或“ROP”图像)。CRAB和SE模块放在残差层3后面,一方面是避免在高层中丢失更多的图像细节特征,得到具有重要特征的特征图,另一方面当网络比较深的时候,注意力机制能够捕获到高级别的特征,使得网络表达更加多样化。
互补残差注意力模块,如附图5所示,CRAB结合了通道和空间两个维度的注意力机制,所述互补残差注意力模块包括:通道注意力SE模块、最大池化层、平均池化层、二维卷积层、sigmoid层;先经过通道注意力模块SE模块(见附图6),得到特征图的权重系数E和相应的特征图,即通过学习的方式自动获取每个通道的重要程度,并且利用得到的重要程度来加强重要特征并抑制对ROP识别不重要的特征;然后以通道为单位分别进行最大池化和平均池化操作,并将两者的结果在通道方向进行合并,之后再经过一个卷积核大小为7*7,卷积步长为1的二维卷积和sigmoid激活函数得到1*W*H(W和H分别表示特征图的宽度和高度)的特征图空间权重,再将该特征图空间权重与原始ResNet18网络的第三个残差层的输出特征图进行点积,得到点积后的特征图,将第三个残差层的输出特征图乘以残差因子1-E后与点积之后的特征图进行相加,得到输出的特征图。本发明所提出的CRAB的作用如下:
CRAB采用SE模块作为其通道注意力,通过学习自动获得每个通道的重要程度,从而增强目标处理对象重要的通道信息并抑制一些无关的细节信息,然后得到的特征图再经过空间注意力机制,进一步选择聚焦位置,产生更具分辨性的特征表示,从而提高网络的特征提取能力(“特征提取能力”指的是捕捉图像上特征的能力)。
本发明中通道注意力模块--SE模块,如附图6所示。SE模块包括压缩(Sequeeze)和激励(Excitation)两部分。将上一层得到的高度、宽度和通道数分别为h、w和C的输入特征图先经过压缩操作,得到C*1*1大小的特征图,压缩部分表明这个特征图具有全局感受野。其中,压缩操作通过一个全局平均池化层完成。激励操作指的是上述压缩得到的C*1*1大小的特征图先经过一个
Figure BDA0002383328950000091
的卷积得到
Figure BDA0002383328950000092
大小的特征图,r表示压缩率,接着经过一个修正线性单元(Rectified Linear Unit,ReLU)层,进行了非线性变换,输出维度保持不变;然后再经过一个C*1*1的卷积得到C*1*1大小的特征图,然后再经过sigmoid激活函数,得到C个特征图的权重系数E,这C个特征图的权重系数E代表各通道的重要程度,而这C个权重系数E是通过上述的卷积操作和非线性层ReLu层及sigmoid层学习得到的。两个1*1卷积的作用是融合各通道的特征图特征。最后将特征图与得到的权重进行点积,得到经过选择后的具有重要病变特征信息的特征图。
3),将ResNet18网络在ImageNet数据集上训练的权重迁移至深度注意力网络模型上以提高精确度和加快网络的收敛速率。基于Pytorch的集成环境和3块带有12GB存储空间的NVIDIA Tesla K40 GPU完成深度注意力网络模型的训练,即将上述步骤1)中训练数据集图像输入到迁移后的深度注意力网络模型,进行一次前向传播,输出每一分类的得分值,通过softmax激活函数,得出每一类的预测值,并计算所述预测值与真实分类值之间的交叉熵损失函数loss值,使用Adam优化算法来最小化所述交叉熵损失函数loss值,基本学习率和权重衰减均设置为0.0001。批尺寸设置为64,迭代次数(Epoch)设置为30。在训练期间,通过验证数据集验证模型,保存验证数据集上准确率最好的模型,得到本发明中所述训练好的深度注意力网络模型。其中,所述预测值与真实分类值之间的交叉熵损失函数loss值通过下述公式计算:
Figure BDA0002383328950000093
其中,L表示预测值与真实值之间的交叉熵损失函数loss值,m表示训练过程中样本总数量,x表示输入的训练数据集中的图像,y表示真实分类值,a表示深度注意力网络模型的预测值,σ表示softmax激活函数,z表示得分值。
实施例2:
一种基于注意力机制的早产儿视网膜图像分类装置,包括:
预处理模块,用于将待识别的二维视网膜眼底图像进行预处理,得到预处理后的二维视网膜眼底图像;
识别模块,用于将预处理后的二维视网膜眼底图像输入到预先训练好的深度注意力网络模型中,输出图像的分类结果识别出早产儿视网膜病变ROP图像;
所述深度注意力网络模型为在原始ResNet18网络的第三个残差层和第四个残差层后分别添加互补残差注意力模块和通道注意力SE模块。
进一步的,所述互补残差注意力模块包括:通道注意力SE模块、最大池化层、平均池化层、二维卷积层、sigmoid层;SE模块用于将输入的特征图在通道维度上重新标定得到新的特征图,重新标定后的新的特征图以通道为单位通过最大池化层、平均池化层分别进行最大池化和平均池化操作,并将两者的结果在通道方向进行合并,再经过一个二维卷积和sigmoid激活函数得到特征图空间权重,再将特征图空间权重与原始ResNet18网络的第三个残差层的输出特征图进行点积,得到点积后的特征图,将第三个残差层的输出特征图乘以残差因子1-E后与点积之后的特征图进行相加,得到输出的特征图;所述E为:互补残差注意力模块中SE模块计算得到的特征图的权重系数。
进一步的,所述通道注意力SE模块包括:全局平均池化层、两个1*1卷积层、修正线性单元层和sigmoid层;将高度、宽度和通道数分别为h、w和C的特征图先经过全局平均池化层进行压缩操作,压缩得到C*1*1大小的特征图,再经过一个
Figure BDA0002383328950000111
的卷积得到
Figure BDA0002383328950000112
大小的特征图,r表示压缩率,接着经过一个修正线性单元层(ReLU激活函数),进行了非线性变化操作,得到了新的
Figure BDA0002383328950000113
的特征图;再经过一个C*1*1的卷积得到大小为C*1*1的特征图,再经过sigmoid激活函数,得到C个特征图的权重系数E,最后将输入的特征图与得到的C个特征图的权重系数E进行点积,得到经过选择后的具有病变特征信息的特征图。
进一步的,所述深度注意力网络模型训练过程为:
1)将正常和异常的二维眼底图像按比例分为训练数据集和验证数据集,并进行预处理操作,对训练数据集中的图像数据进行数据增强;
2)将ResNet18网络在ImageNet数据集上训练的权重迁移至预先构建的深度注意力网络模型上,将训练数据集中的图像输入到迁移后的深度注意力网络模型,进行一次前向传播,得到每一分类的得分值,通过激活softmax函数,得出每一类的预测值,并计算所述预测值与真实分类值之间的交叉熵损失函数loss值,用Adam优化算法来最小化所述交叉熵损失函数loss值;
3)通过验证数据集验证模型,保存验证数据集上准确率最好的模型,得到训练好的深度注意力网络模型。
实施例3:
将本发明方法与现有技术进行对比,实验结果如下:
为了定量评估本发明的性能,将来自100个受试者的1443张(850张正常图像和593张ROP图像)二维视网膜眼底图像进行所述预处理,使用4个常用的分类评价指标来测试,包括准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F1分数(F1-score)。其中准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F1分数(F1-score)的定义如下:
Figure BDA0002383328950000121
Figure BDA0002383328950000122
Figure BDA0002383328950000123
Figure BDA0002383328950000124
其中TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性,P和R分别代表精确度(Precision)和召回率(Recall)。
本发明在测试数据集中评估和对比原始ResNet18网络、张等人的方法与本发明所述的深度注意力网络模型。为了证明CRAM模块和SE模块的有效性,进行了一系列的消融实验。实验结果如表1所示。
表1.本发明方法及其消融实验的分类结果
方法/评价指标 准确率 精确度 召回率 F1分数
基线网络 98.19% 99.30% 96.29% 97.78%
基线网络+CRAB 99.03% 99.82% 97.81% 98.80%
基线网络+SE 98.96% 98.31% 97.81% 98.06%
张等人的方法 97.43% 98.43% 95.27% 96.82%
深度注意力网络模型 99.17% 98.56% 98.31% 98.48%
原始ResNet18用“基线网络”表示,“基线网络+CRAB”表示在原始ResNet18中添加CRAB模块,“基线网络+SE”表示在原始ResNet18中添加SE模块,“张等人的方法”表示2018年11月12日发表在期刊名为“IEEE ACCESS”期刊号(Digital Object Identifier,DOI)为10.1109/ACCESS.2018.2881042上的方法。“深度注意力网络模型”是本发明中提出的方法。可以看出原始ResNet18的分类准确率是98.19%,张等人的方法的分类准确率是97.43%,改进后也即本发明的分类准确率可达99.17%。本发明的召回率为98.31%,比原始ResNet18和张等人的方法分别提高了2.02%和3.04%。从表1中可以看出本发明中设计的CRAB模块和引用的SE模块均比原始的ResNet18和张等人的方法的分类准确率高。
附图7展示了原始ResNet18网络和本发明的分类混淆矩阵。其中,在原始ResNet18网络的分类混淆矩阵中,主对角线上的数字846和571分别表示正确识别的正常和异常图像个数,副对角线上的数字4和22分别表示错误识别的正常和异常图像个数;在本发明的分类混淆矩阵中,主对角线上的数字848和583分别表示正确识别的正常和异常图像个数,副对角线上的数字2和10分别表示错误识别的正常和异常图像个数。本发明中的两个类别分类准确率均优于改进前的原始ResNet18网络的分类准确率。总之,本发明提出和引用的具有重要特征选择的注意力模块CARB模块和SE模块保证了早产儿视网膜病变识别的精度和效率。
本发明在实验中的表现优于原始ResNet18卷积神经网络,此发明能对二维眼底图像做出更优的判断,从另一方面来说,本发明中设计的注意力模块CARAB并不复杂,可以嵌入到其他任何卷积神经网络中去,使得网络的特征提取能力更强,从而提高网络的整体性能,有助于二维眼底图像的分类和检测,大大提高了二维眼底图像的筛查效率。本发明结合了图像预处理、深度注意力网络模型的搭建与训练以及测试,使后续对早产儿视网膜病变的研究,如病变区域分割、配准以及ROP的自动分级研究等有很大的帮助。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种基于注意力机制的早产儿视网膜图像分类方法,其特征在于:包括步骤:
将待识别的二维视网膜眼底图像进行预处理,得到预处理后的二维视网膜眼底图像;
将预处理后的二维视网膜眼底图像输入到预先训练好的深度注意力网络模型中,输出图像的分类结果识别出早产儿视网膜病变ROP图像;
所述深度注意力网络模型为在原始ResNet18网络的第三个残差层和第四个残差层后分别添加互补残差注意力模块和通道注意力SE模块;
所述互补残差注意力模块包括:第二通道注意力SE模块、最大池化层、平均池化层、二维卷积层、sigmoid层;所述第二通道注意力SE模块用于将输入的特征图在通道维度上重新标定得到新的特征图,重新标定后的新的特征图以通道为单位通过最大池化层、平均池化层分别进行最大池化和平均池化操作,并将两者的结果在通道方向进行合并,再经过一个二维卷积和sigmoid激活函数得到特征图空间权重,再将特征图空间权重与原始ResNet18网络的第三个残差层的输出特征图进行点积,得到点积后的特征图,将第三个残差层的输出特征图乘以残差因子1-E后与点积之后的特征图进行相加,得到输出的特征图;E为:互补残差注意力模块中SE模块计算得到的特征图的权重系数;
所述通道注意力SE模块包括:全局平均池化层、两个1*1卷积层、修正线性单元层和sigmoid层;将高度、宽度和通道数分别为h、w和C的特征图先经过全局平均池化层进行压缩操作,压缩得到C*1*1大小的特征图,再经过一个
Figure FDA0004137398300000011
的卷积得到
Figure FDA0004137398300000012
大小的特征图,r表示压缩率,接着经过一个修正线性单元层,进行了非线性变化操作,得到了新的
Figure FDA0004137398300000021
大小的特征图;再经过一个C*1*1的卷积得到大小为C*1*1的特征图,再经过sigmoid激活函数,得到C个特征图的权重系数E,最后将输入的特征图与得到的C个特征图的权重系数E进行点积,得到经过选择后的具有病变特征信息的特征图。
2.根据权利要求1所述的一种基于注意力机制的早产儿视网膜图像分类方法,其特征是:所述深度注意力网络模型训练过程为:
1)将正常和异常的二维眼底图像按比例分为训练数据集和验证数据集,并进行预处理操作,对训练数据集中的图像数据进行数据增强;
2)将ResNet18网络在ImageNet数据集上训练的权重迁移至预先构建的深度注意力网络模型上,将训练数据集中的图像输入到迁移后的深度注意力网络模型,进行一次前向传播,得到每一分类的得分值,通过softmax激活函数,得出每一类的预测值,并计算所述预测值与真实分类值之间的交叉熵损失函数loss值,用Adam优化算法来最小化所述交叉熵损失函数loss值
3)通过验证数据集验证模型,保存验证数据集上准确率最好的模型,得到训练好的深度注意力网络模型。
3.根据权利要求2所述的一种基于注意力机制的早产儿视网膜图像分类方法,其特征是:所述预测值与真实分类值之间的交叉熵损失函数loss值通过下述公式计算:
Figure FDA0004137398300000022
其中,L表示预测值与真实分类值之间的交叉熵损失函数loss值,m表示训练过程中样本总数量,x表示输入的训练数据集中的图像,y表示真实分类值,a表示深度注意力网络模型的预测值,σ表示softmax激活函数,z表示得分值。
4.根据权利要求1或2所述的一种基于注意力机制的早产儿视网膜图像分类方法,其特征是:所述预处理操作包括:下采样和减均值。
5.一种基于注意力机制的早产儿视网膜图像分类装置,其特征在于:包括:
预处理模块,用于将待识别的二维视网膜眼底图像进行预处理,得到预处理后的二维视网膜眼底图像;
识别模块,用于将预处理后的二维视网膜眼底图像输入到预先训练好的深度注意力网络模型中,输出图像的分类结果识别出早产儿视网膜病变ROP图像;
所述深度注意力网络模型为在原始ResNet18网络的第三个残差层和第四个残差层后分别添加互补残差注意力模块和通道注意力SE模块;
所述互补残差注意力模块包括:第二通道注意力SE模块、最大池化层、平均池化层、二维卷积层、sigmoid层;第二通道注意力SE模块用于将输入的特征图在通道维度上重新标定得到新的特征图,重新标定后的新的特征图以通道为单位通过最大池化层、平均池化层分别进行最大池化和平均池化操作,并将两者的结果在通道方向进行合并,再经过一个二维卷积和sigmoid激活函数得到特征图空间权重,再将特征图空间权重与原始ResNet18网络的第三个残差层的输出特征图进行点积,得到点积后的特征图,将第三个残差层的输出特征图乘以残差因子1-E后与点积之后的特征图进行相加,得到输出的特征图;所述E为:互补残差注意力模块中SE模块计算得到的特征图的权重系数;
所述通道注意力SE模块包括:全局平均池化层、两个1*1卷积层、修正线性单元层和sigmoid层;将高度、宽度和通道数分别为h、w和C的特征图先经过全局平均池化层进行压缩操作,压缩得到C*1*1大小的特征图,再经过一个
Figure FDA0004137398300000041
的卷积得到
Figure FDA0004137398300000042
大小的特征图,r表示压缩率,接着经过一个修正线性单元层,进行了非线性变化操作,得到了新的
Figure FDA0004137398300000043
的特征图;再经过一个C*1*1的卷积得到大小为C*1*1的特征图,再经过sigmoid激活函数,得到C个特征图的权重系数E,最后将输入的特征图与得到的C个特征图的权重系数E进行点积,得到经过选择后的具有病变特征信息的特征图。
6.根据权利要求5所述的一种基于注意力机制的早产儿视网膜图像分类装置,其特征是:所述深度注意力网络模型训练过程为:
1)将正常和异常的二维眼底图像按比例分为训练数据集和验证数据集,并进行预处理操作,对训练数据集中的图像数据进行数据增强;
2)将ResNet18网络在ImageNet数据集上训练的权重迁移至预先构建的深度注意力网络模型上,将训练数据集中的图像输入到迁移后的深度注意力网络模型,进行一次前向传播,得到每一分类的得分值,通过softmax激活函数,得出每一类的预测值,并计算所述预测值与真实分类值之间的交叉熵损失函数loss值,用Adam优化算法来最小化所述交叉熵损失函数loss值;
3)通过验证数据集验证模型,保存验证数据集上准确率最好的模型,得到训练好的深度注意力网络模型。
CN202010089915.XA 2020-02-13 2020-02-13 一种基于注意力机制的早产儿视网膜图像分类方法和装置 Active CN111259982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089915.XA CN111259982B (zh) 2020-02-13 2020-02-13 一种基于注意力机制的早产儿视网膜图像分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089915.XA CN111259982B (zh) 2020-02-13 2020-02-13 一种基于注意力机制的早产儿视网膜图像分类方法和装置

Publications (2)

Publication Number Publication Date
CN111259982A CN111259982A (zh) 2020-06-09
CN111259982B true CN111259982B (zh) 2023-05-12

Family

ID=70951080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089915.XA Active CN111259982B (zh) 2020-02-13 2020-02-13 一种基于注意力机制的早产儿视网膜图像分类方法和装置

Country Status (1)

Country Link
CN (1) CN111259982B (zh)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860949B (zh) * 2020-06-12 2022-06-03 深圳市新产业眼科新技术有限公司 基于时序图像的预测方法及装置
CN111783682B (zh) * 2020-07-02 2022-11-04 上海交通大学医学院附属第九人民医院 眼眶骨折自动识别模型构建方法、装置、设备和介质
CN111797787B (zh) * 2020-07-09 2021-06-04 杭州视测科技有限公司 一种基于物联网技术的废弃物图像检测分类系统
CN111951219B (zh) * 2020-07-09 2022-12-20 上海交通大学 基于眼眶ct图像的甲状腺眼病筛查方法、系统及设备
CN111985370B (zh) * 2020-08-10 2022-04-08 华南农业大学 一种基于混合注意力模块的农作物病虫害识别方法
CN112116065A (zh) * 2020-08-14 2020-12-22 西安电子科技大学 一种rgb图像光谱重建方法、系统、存储介质及应用
CN112101424B (zh) * 2020-08-24 2023-08-04 深圳大学 一种视网膜病变识别模型的生成方法、识别装置及设备
CN112036495A (zh) * 2020-09-02 2020-12-04 常熟理工学院 一种基于网络爬虫和迁移学习的服装图像分类方法
CN112036494A (zh) * 2020-09-02 2020-12-04 公安部物证鉴定中心 一种基于深度学习网络的枪支图像识别方法和系统
CN112163465B (zh) * 2020-09-11 2022-04-22 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN112163601B (zh) * 2020-09-14 2023-09-26 华南理工大学 图像分类方法、系统、计算机设备及存储介质
CN112116009B (zh) * 2020-09-21 2024-04-26 长沙理工大学 基于卷积神经网络的新冠肺炎x射线图像识别方法及系统
CN112101265B (zh) * 2020-09-22 2023-04-25 四川大学 一种鲁棒的作物病害诊断系统
CN112308830A (zh) * 2020-10-27 2021-02-02 苏州大学 一种基于注意力机制和深监督策略的早产儿视网膜病变自动分区识别方法
CN112308138B (zh) * 2020-10-30 2024-04-09 中国平安财产保险股份有限公司 模型采样方法、装置、计算机设备及存储介质
CN112329857A (zh) * 2020-11-06 2021-02-05 山西三友和智慧信息技术股份有限公司 一种基于改进残差网络的图像分类方法
CN112396103A (zh) * 2020-11-16 2021-02-23 平安科技(深圳)有限公司 图像分类方法、装置及存储介质
CN112396588A (zh) * 2020-11-23 2021-02-23 中国人民大学 一种基于对抗网络的眼底图像识别方法、系统及可读介质
CN113762303B (zh) * 2020-11-23 2024-05-24 北京沃东天骏信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN112487939A (zh) * 2020-11-26 2021-03-12 深圳市热丽泰和生命科技有限公司 一种基于深度学习的纯视觉轻量手语识别系统
CN112508625B (zh) * 2020-12-18 2022-10-21 国网河南省电力公司经济技术研究院 基于多分枝残差注意力网络的智能稽查建模方法
CN112749734B (zh) * 2020-12-29 2024-01-05 北京环境特性研究所 一种基于可迁移注意力机制的领域自适应的目标检测方法
CN112767416B (zh) * 2021-01-19 2023-03-24 中国科学技术大学 一种基于空间和通道双重注意力机制的眼底血管分割方法
CN113239947B (zh) * 2021-03-10 2022-09-23 安徽省农业科学院农业经济与信息研究所 一种基于细粒度分类技术的害虫图像分类方法
CN113065013B (zh) * 2021-03-25 2024-05-03 携程计算机技术(上海)有限公司 图像标注模型训练和图像标注方法、系统、设备及介质
CN113112463A (zh) * 2021-03-31 2021-07-13 上海联影智能医疗科技有限公司 医学图像质量评估方法、电子设备及存储介质
CN113111970B (zh) * 2021-04-30 2023-12-26 陕西师范大学 通过构建全局嵌入式注意力残差网络对图像分类的方法
CN113362307B (zh) * 2021-06-07 2023-03-28 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113435267B (zh) * 2021-06-09 2023-06-23 江苏第二师范学院 一种基于改进的卷积神经网络的在线教育学生专注力判别方法
CN113505678B (zh) * 2021-07-01 2023-03-21 西北大学 基于深度可分离卷积的猴类面部识别方法
CN113516643A (zh) * 2021-07-13 2021-10-19 重庆大学 Octa图像中视网膜血管分叉点和交叉点的检测方法
CN113592809B (zh) * 2021-07-28 2024-05-14 中国海洋大学 一种基于通道注意力残差网络的肺炎图像检测系统及方法
CN113887662A (zh) * 2021-10-26 2022-01-04 北京理工大学重庆创新中心 一种基于残差网络的图像分类方法、装置、设备及介质
CN114005096B (zh) * 2021-11-09 2024-05-10 河北工业大学 基于特征增强的车辆重识别方法
CN114387451A (zh) * 2022-01-10 2022-04-22 中国人民公安大学 异常图像检测模型的训练方法、装置及介质
CN114418999B (zh) * 2022-01-20 2022-09-23 哈尔滨工业大学 基于病变关注金字塔卷积神经网络的视网膜病变检测系统
CN114549962B (zh) * 2022-03-07 2024-06-21 重庆锐云科技有限公司 一种园林植物叶病分类方法
CN114881927B (zh) * 2022-03-31 2024-04-16 华南师范大学 早产儿视网膜病变的检测方法及装置、设备
CN114998210B (zh) * 2022-04-29 2024-05-07 华南理工大学 一种基于深度学习目标检测的早产儿视网膜病变检测系统
CN114757938B (zh) * 2022-05-16 2023-09-15 国网四川省电力公司电力科学研究院 一种变压器漏油识别方法和系统
CN115205614B (zh) * 2022-05-20 2023-12-22 深圳市沃锐图像技术有限公司 一种用于智能制造的矿石x光图像识别方法
CN115083005B (zh) * 2022-06-13 2023-07-04 广东省人民医院 一种基于深度学习的rop图像分类系统及方法
CN115131612A (zh) * 2022-07-02 2022-09-30 哈尔滨理工大学 一种基于递归残差网络的视网膜oct图像分类方法
CN115187814B (zh) * 2022-07-25 2024-05-10 重庆芸山实业有限公司 一种基于人工智能的菊花叶病诊断方法及设备
CN115034375B (zh) * 2022-08-09 2023-06-27 北京灵汐科技有限公司 数据处理方法及装置、神经网络模型、设备、介质
CN115587979B (zh) * 2022-10-10 2023-08-15 山东财经大学 基于三阶段注意力网络的糖尿病视网膜病变分级的方法
WO2024108425A1 (zh) * 2022-11-23 2024-05-30 深圳先进技术研究院 一种基于混合注意力网络对胰腺图像进行分类的方法
CN116503639A (zh) * 2023-03-14 2023-07-28 苏州大学 一种视网膜oct图像病变多标签分类系统和方法
CN116485736A (zh) * 2023-04-04 2023-07-25 深圳市眼科医院(深圳市眼病防治研究所) 基于深度学习的眼底视网膜图像异常区域检测方法及系统
CN116758038A (zh) * 2023-06-25 2023-09-15 深圳市眼科医院(深圳市眼病防治研究所) 基于训练网络的婴幼儿视网膜疾病信息识别方法及系统
CN116823760B (zh) * 2023-06-25 2024-09-24 深圳市眼科医院(深圳市眼病防治研究所) 早产儿视网膜病变治疗方式的自动识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021916A (zh) * 2017-12-31 2018-05-11 南京航空航天大学 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN110675406A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于残差双注意力深度网络的ct图像肾脏分割算法
CN110728224A (zh) * 2019-10-08 2020-01-24 西安电子科技大学 一种基于注意力机制深度Contourlet网络的遥感图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021916A (zh) * 2017-12-31 2018-05-11 南京航空航天大学 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN110675406A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于残差双注意力深度网络的ct图像肾脏分割算法
CN110728224A (zh) * 2019-10-08 2020-01-24 西安电子科技大学 一种基于注意力机制深度Contourlet网络的遥感图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李天培 等.基于双注意力编码-解码器架构的视网膜血管分割.计算机科学.2019,(05), *

Also Published As

Publication number Publication date
CN111259982A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259982B (zh) 一种基于注意力机制的早产儿视网膜图像分类方法和装置
CN111476283A (zh) 基于迁移学习的青光眼眼底图像识别方法
CN112132817B (zh) 一种混合注意力机制的眼底图像视网膜血管分割方法
CN110276745B (zh) 一种基于生成对抗网络的病理图像检测算法
CN110197493A (zh) 眼底图像血管分割方法
CN114998210B (zh) 一种基于深度学习目标检测的早产儿视网膜病变检测系统
Zhao et al. High‐quality retinal vessel segmentation using generative adversarial network with a large receptive field
CN110236483B (zh) 一种基于深度残差网络的糖尿病性视网膜病变检测的方法
CN112016626B (zh) 基于不确定度的糖尿病视网膜病变分类系统
CN114287878A (zh) 一种基于注意力模型的糖尿病性视网膜病变病灶图像识别方法
Adem et al. Detection of hemorrhage in retinal images using linear classifiers and iterative thresholding approaches based on firefly and particle swarm optimization algorithms
Rajkumar et al. Transfer learning approach for diabetic retinopathy detection using residual network
CN111611851B (zh) 模型生成方法、虹膜检测方法及装置
CN116188879B (zh) 图像分类、图像分类模型训练方法、装置、设备及介质
CN113011340B (zh) 一种基于视网膜图像的心血管手术指标风险分类方法及系统
Yang et al. Classification of diabetic retinopathy severity based on GCA attention mechanism
CN115424093A (zh) 一种识别眼底图像中细胞的方法及装置
Khan et al. Ddnet: Diabetic retinopathy detection system using skip connection-based upgraded feature block
CN113705670A (zh) 基于磁共振成像和深度学习的脑部图像分类方法及设备
CN117649657A (zh) 基于改进Mask R-CNN的骨髓细胞检测系统
CN112991281A (zh) 视觉检测方法、系统、电子设备及介质
CN112883930A (zh) 基于全连接网络的实时真假运动判断方法
CN108877925A (zh) 一种肺炎病原的确定方法及装置
de La Torre et al. Diabetic retinopathy detection through image analysis using deep convolutional neural networks
Wan et al. Depth-wise convolution with attention neural network (DWA) for pneumonia detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant