CN114998210A

CN114998210A - 一种基于深度学习目标检测的早产儿视网膜病变检测系统

Info

Publication number: CN114998210A
Application number: CN202210464864.3A
Authority: CN
Inventors: 万加富; 丁晓璇; 聂川; 汪翠翠; 侯宁
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-09-02
Anticipated expiration: 2042-04-29
Also published as: CN114998210B

Abstract

本发明公开了一种基于深度学习目标检测的早产儿视网膜病变检测系统，其特征在于，包括：图像获取模块，图像预处理模块，早产儿视网膜病变分析模块以及病例报告输出模块，其中：图像获取模块用于采集多张早产儿视网膜眼底图像；图像预处理模块用于对早产儿视网膜眼底图像进行预处理；早产儿视网膜病变分析模块用于对早产儿视网膜病变的识别和分类以及病变的特征和位置关系，实现对早产儿视网膜眼底图像中Ⅰ/Ⅱ/Ⅲ三区15期以及P l us病变的检测；病例报告输出模块用于根据早产儿视网膜病变分析模块的视网膜病变分析结果形成辅助诊断结果，通过医生确认、修改和/或输入医嘱，形成诊断报告。还公开了对应的方法、电子设备以及计算机可读存储介质。

Description

一种基于深度学习目标检测的早产儿视网膜病变检测系统

技术领域

本发明属于计算机、人工智能及图像处理技术领域，尤其涉及一种基于深度学习目标检测的早产儿视网膜病变检测系统及检测方法。

背景技术

早产儿视网膜病(Retinopathy of Prematurity，ROP)发病率逐步升高，是导致儿童失明和视力障碍的最重要的原因之一。及时筛查病变区域，早期识别并干预是预防ROP失明的重要措施。我国各级卫生行政部门历来重视早产儿ROP筛查，卫生部在2004年公布了《早产儿治疗用氧和视网膜病变防治指南》，有些地区在此基础上还出台了自己的ROP筛查方案，例如广州市的穗卫2021[20]号文件《广州市加强新生儿疾病筛查服务体系建设实施方案》中明文规定，广州辖区内出生所有的早产儿需免费开展眼底筛查与复查工作。

人工智能(Artificial Intelligence，AI)近年来已开始用于医疗领域，有望解决医疗资源匮乏及不均的问题，但当前AI在ROP的眼底筛查应用中仍存在部分不足：如不能识别ROP的分区、分期，无法判断ROP术后眼底恢复；且AI诊断方法的数据来源单一，自优化和普适性不足，误诊率和漏诊率高，临床适用性较差，无法广泛推广。并且世界范围内ROP筛查资源不均衡现象普遍存在，导致基层或者偏远地区早产儿未能得到及时有效的眼底筛查，病情加重乃至失明的情况时有发生。因ROP筛查能力不足未开展ROP筛查而导致转诊ROP患儿病变较重，手术干预率高的情况高发，严重威胁早产儿的视力健康。因此，如何有效提升ROP病变的检测能力，减少早产儿视力残障是当前亟需解决的焦点和难点问题。

发明内容

本发明的目的是提供一种基于深度学习目标检测的早产儿视网膜病变检测系统及检测方法，实现对早产儿视网膜病Ⅰ/Ⅱ/Ⅲ三区15期以及Plus病变的检测。

本发明一方面提供了一种基于深度学习目标检测的早产儿视网膜病变检测系统，包括：图像获取模块，图像预处理模块，早产儿视网膜病变分析模块以及病例报告输出模块，其中：

所述图像获取模块用于采集多张早产儿视网膜眼底图像；

所述图像预处理模块用于对所述早产儿视网膜眼底图像进行预处理；

所述早产儿视网膜病变分析模块用于对所述早产儿视网膜病变的识别和分类以及病变的特征和位置关系，实现对早产儿视网膜眼底图像中Ⅰ/Ⅱ/Ⅲ三区15期以及Plus病变的检测；

所述病例报告输出模块用于根据所述早产儿视网膜病变分析模块的视网膜病变分析结果形成辅助诊断结果，通过医生确认、修改和/或输入医嘱，形成诊断报告；

所述早产儿视网膜病变分析模块包括病变分类模块以及深度学习信息分析模块，其中所述病变分类模块基于LabelImg开源算法库，对预处理后的眼底图像进行人工标注，得到病变区域的分类情况与病变区域的坐标信息；所述深度学习信息分析模块用于通过建立深度学习目标检测模型检测早产儿视网膜眼底图像中Ⅰ/Ⅱ/Ⅲ三区15期以及Plus病变。

优选的，所述图像获取模块采用RetCam采集所述早产儿视网膜眼底图像。

优选的，所述预处理通过OpenCV算法库实施，包括：去除所述早产儿视网膜眼底图像的敏感信息。

本发明的第二方面提供了一种基于深度学习目标检测的早产儿视网膜病变检测方法，包括：

S1,基于所述图像获取模块采集多张早产儿视网膜眼底图像；

S2，基于所述图像预处理模块对所述早产儿视网膜眼底图像进行预处理；

S3，基于所述早产儿视网膜病变分析模块对所述早产儿视网膜病变的识别和分类以及病变的特征和位置关系，实现对早产儿视网膜眼底图像中Ⅰ/Ⅱ/Ⅲ三区15期以及Plus病变的检测；

S4，基于所述病例报告输出模块，根据所述早产儿视网膜病变分析模块的视网膜病变分析结果形成辅助诊断结果，通过医生确认、修改和/或输入医嘱，形成诊断报告。

优选的，所述S3包括：

S31，基于LabelImg开源算法库，对预处理后的眼底图像进行人工标注，得到病变区域的分类情况与病变区域的坐标信息；

S32，通过建立深度学习目标检测模型检测早产儿视网膜眼底图像中Ⅰ/Ⅱ/Ⅲ三区15期以及Plus病变。

优选的，所述S32包括：

S321，对经过预处理获得所述早产儿视网膜眼底图像进行离线扩增获得扩增数据集，所述离线扩增操作包括：随机反转所有像素、随机上下/左右翻转、随机高斯模糊、随机平移、随机旋转、随机对比度增强以及应用mixup数据增强算法；其中所述mixup数据增强算法是一种对图像进行混类增强的算法，将不同类别的图像进行混合以达到数据扩增的效果；

S322，基于所述离线扩增数据集搭建Yolov5目标检测网络；其中网络主体采用Yolov5卷积神经网络，在Yolov5的FPN层添加CBAM注意力机制模块，包括有通道注意力模块和空间注意力模块，以此完成整个目标检测网络的搭建；

S323，基于COCO数据集进行迁移学习与训练，将数据集划分为训练集、验证集和测试集三部分，对所述训练集和所述验证集进行数据扩增，基于扩增后的训练集和验证集进行所述Yolov5目标检测网络的网络训练；

S324，基于所述测试集测试网络性能，并保存所述网络结构作为所述病变检测结果。

优选的，所述Yolov5卷积神经网络包括三层，分别是Backbone网络，FPN网络以及Yolo Head层；所述Backbone网络为所述Yolov5卷积神经网络的主干网络部分，采用CSPDarknet网络，包括：

(1)Focus网络：在早产儿视网膜眼底图像中每隔一个像素获取一个数值分别存入独立特征层，将获取的四个独立特征层进行堆叠，此时宽高信息就集中到了通道信息，输入通道扩充了四倍；

(2)残差网络Residual，其中残差网络Residual包括残差卷积，残差卷积包括两个部分，分别是主干部分和残差部分，主干部分是一次1x1的卷积和一次3x3的卷积；残差部分不做任何处理，直接将主干部分的输入与输出结合。整个Yolov5卷积神经网络的主干部分都由残差卷积构成。

(3)CSP网络：将残差块的堆叠进行拆分，使得主干部分继续进行原来的残差块堆叠；另一部分则像一个残差边一样，经过少量处理直接连接到最后；

(4)SiLU激活函数，SiLU是Sigmoid激活函数和ReLU激活函数的改进版；SiLU具备无上界、有下界、平滑、非单调的特性；公式如下：

f(x)＝x·sigmoid(x)；

(5)SPP网络：采用不同大小的池化核，利用最大池化操作进行特征提取。

优选的，所述步骤S323包括：

所述FPN网络用于获得三个加强特征层，采集来自CSPDarknet网络提取的三个特征层，分别位于CSPDarknet网络的中间层、中下层和底层，之后采用CBAM注意力模块，将三个特征层输出的结果，先通过一个通道注意力模块，得到加权结果之后，再经过一个空间注意力模块，进行加权得到最终的结果。

所述FPN模块加入CBAM注意力模块后，利用1x1卷积调整通道数、上采样、3x3卷积下采样以及堆叠concat等操作完成整个FPN层的构建，实现了不同shape层的特征融合，提取出三个加强特征层；

利用FPN特征金字塔获得三个加强特征层，输入到Yolo Head获得预测结果，对于每一个特征层，利用卷积调整通道数；

利用FPN网络得到的三个加强特征层后输入到Yolo Head获得的预测结果进行解码操作，调整参数，获取最终预测点以及预测框宽高；再将最后的结果进行得分排序，即筛选出得分满足confidence置信度的预测框，以及进行非极大抑制筛选，筛选出一定区域内属于同一种类得分最大的框以得到最终的预测框，完成整个Yolov5预测过程。

本发明的第三方面提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的方法、装置、电子设备以及计算机可读存储介质，具有如下有益的技术效果：

本发明的基于深度学习目标检测的早产儿视网膜病变检测系统和检测方法，构建能够对眼底图像病区域进行分类与定位的模型，提高早产儿视网膜病分区分期以及Plus病变识别的精度和效率，为后续的更多病变区域的自动检测奠定良好的基础。

附图说明

图1为根据本发明优选实施例示出的基于深度学习目标检测技术的早产儿视网膜病变检测方法的处理流程示意图；

图2为根据本发明优选实施例示出的添加CBAM注意力机制模块的Yolov5目标检测网络结构示意图；

图3(a)和(b)为根据本发明优选实施例示出的CBAM注意力机制模块结构示意图，其中图3(a)为通道注意力机制模块结构示意图，图3(b)为空间注意力机制模块结构示意图；

图4为根据本发明优选实施例示出的Yolov5中Focus模块结构示意图；

图5为根据本发明优选实施例示出的部分ROP眼底图像人工标注示意图；

图6为本发明提供的电子设备一种实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

一种基于深度学习目标检测的早产儿视网膜病变检测系统及检测方法，实现对早产儿视网膜病Ⅰ/Ⅱ/Ⅲ三区15期以及Plus病变的检测。

所述图像获取模块用于采集多张早产儿视网膜眼底图像；

所述早产儿视网膜病变分析模块包括病变分类模块以及深度学习信息分析模块，其中所述病变分类模块基于Label Img开源算法库，对预处理后的眼底图像进行人工标注，得到病变区域的分类情况与病变区域的坐标信息；所述深度学习信息分析模块用于通过建立深度学习目标检测模型检测早产儿视网膜眼底图像中Ⅰ/Ⅱ/Ⅲ三区15期以及Plus病变。

作为优选的实施方式，所述图像获取模块采用RetCam采集所述早产儿视网膜眼底图像。

作为优选的实施方式，所述预处理通过OpenCV算法库实施，包括：去除所述早产儿视网膜眼底图像的敏感信息。

实施例二

如图1所示，提供了一种基于深度学习目标检测的早产儿视网膜病变检测方法，包括：

S1,基于所述图像获取模块采集多张早产儿视网膜眼底图像；

S4，基于所述病例报告输出模块，根据所述早产儿视网膜病变分析模块的视网膜病变分析结果形成辅助诊断结果，通过医生确认、修改和/或输入医嘱，形成诊断报告；

其中所述S3包括：

S31，基于Label Img开源算法库，对预处理后的眼底图像进行人工标注，得到病变区域的分类情况与病变区域的坐标信息；

作为优选的实施方式，所述S32包括：

S321，对经过预处理获得所述早产儿视网膜眼底图像进行离线扩增获得扩增数据集；

本实施例中，离线扩增操作包括：随机反转所有像素、随机上下/左右翻转、随机高斯模糊、随机平移、随机旋转、随机对比度增强以及应用mixup数据增强算法；其中所述mixup数据增强算法是一种对图像进行混类增强的算法，可以将不同类别的图像进行混合以达到数据扩增的效果。

本实施例中，数据离线增强中所述的mixup数据增强算法主要原理是对不同类别的样本进行图像以及标签的随机混合，以得到新的训练样本。具体如下：假设batch_x1是一个batch样本，batch_y1是该batch样本对应的标签；batch_x2是另一个batch样本，batch_y2是该batch样本对应的标签，λ是由参数α，β的贝塔分布计算出来的混合系数，由此我们可以得到mixup算法原理公式为：

λ＝Beta(α，β)

mbatch_x＝λ·batch_x1+(1-λ)·batch_x2

mbatch_y＝λ·batch_y1+(1-λ)·batch_y2

其中Beta指的是贝塔分布，mbatch_x是混合后的batch样本，mbatch_y是混合后的batch样本对应的标签。

本实施例将ROP患病眼底图像与正常眼底图像进行混合，达到了大规模扩增数据集的效果，扩增数据集中包含训练集和验证集，以增强网络的泛化性能，防止过拟合。

S322，基于所述离线扩增数据集搭建Yolov5目标检测网络；

本实施例中，如图2所示，网络主体采用Yolov5卷积神经网络，在Yolov5的FPN层添加CBAM注意力机制模块，包括有通道注意力模块和空间注意力模块，以此完成整个目标检测网络的搭建。

作为优选的实施方式，所述Yolov5卷积神经网络包括三层，分别是Backbone网络，FPN网络以及YoloHead层。

作为优选的实施方式，所述Backbone网络为所述Yolov5卷积神经网络的主干网络部分，采用CSPDarknet网络，包括：

(4)SiLU激活函数，SiLU是Sigmoid激活函数和ReLU激活函数的改进版；SiLU具备无上界、有下界、平滑、非单调的特性。SiLU在深层模型上的效果优于ReLU，可以看做是平滑的ReLU激活函数。具体公式如下：

f(x)＝x·sigmoid(x)

(5)SPP网络：采用不同大小的池化核，利用最大池化操作(MaxPool)进行特征提取，提高网络的感受野。

作为优选的实施方式，所述S323包括：

(1)基于Mosaic数据增强方法在所述Yolov5卷积神经网络的输入端将四张图片进行随机裁剪操作；将随机裁剪操作后得到的图片拼接到一张图上作为训练数据，通过以上方法获得多个训练数据后组成训练集，大幅度提高了网络的训练速度；在所述Yolov5卷积神经网络的初始部分嵌入自适应锚框计算功能，为ROP眼底图像自定义数据集设定合适的锚框初始长宽；使用自适应方法对眼底图像进行缩放，使原始的眼底图像在缩放过程中自适应地添加最少的黑边，减少推理时的计算量，并且大幅度提高了目标检测的速度；

(2)所述Yolov5主干网络Backbone部分采用CSPDarknet网络；其中新定义了Focus网络结构，如图4所示，对图片进行切片操作，在图片进入Backbone之前，对图片每隔一个像素获取数值，堆叠获取到的四个独立特征层，此时宽高信息就集中到了通道信息，使得输入通道扩充了四倍，即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道，最后将得到的新图片再经过3x3卷积操作，得到了没有信息丢失情况下的二倍下采样特征图；

所述CSPDarknet网络使用了残差网络Residual，其中残差卷积包括两个部分，分别是主干部分和残差部分，主干部分是一次1x1的卷积和一次3x3的卷积；残差边部分不做任何处理，直接将主干的输入与输出结合。整个Yolov5的主干部分都由残差卷积构成，同时采用了CSP网络结构，将残差块的堆叠进行了拆分，使得主干部分继续进行原来的残差块的堆叠；另一部分则像一个残差边一样，经过少量处理直接连接到最后。此外，还采用了SPP网络结构，根据不同大小的池化核，利用最大池化进行特征提取，提高网络的感受野。

作为优选，所述CSPDarknet网络使用了SiLU激活函数，SiLU是Sigmoid激活函数和ReLU激活函数的改进版。SiLU具备无上界有下界、平滑、非单调的特性。SiLU在深层模型上的效果优于ReLU。可以看做是平滑的ReLU激活函数。

具体公式如下：

f(x)＝x·sigmoid(x)；

(3)FPN网络用于获得三个加强特征层，采集来自CSPDarknet网络提取的三个特征层，分别位于CSPDarknet网络的中间层、中下层和底层，之后采用CBAM注意力模块，将三个特征层输出的结果，先通过一个通道注意力模块，得到加权结果之后，再经过一个空间注意力模块，进行加权得到最终的结果。

本实施例中，所述FPN网络采集来自CSPDarknet网络提取的三个特征层，分别位于网络的中间层、中下层和底层，再采用CBAM注意力模块，将三个特征层输出的结果，先通过一个通道注意力模块，得到加权结果之后，输入到空间注意力模块，进行加权得到最终的结果。其中通道注意力机制，将输入特征F(H×W×C)分别经过基于高宽的全局最大池化(MaxPool)和全局平均池化(AvgPool)操作，得到两个1×1×C的特征图，接着，再将它们分别送入全连接层(MLP)，第一层神经元个数为C/r(r为减少率)，激活函数为ReLU，第二层神经元个数为C，全连接层网络结构是共享的。而后，将MLP输出的特征经过加和操作后，再经过Sigmoid激活函数，生成最终的通道注意力机制特征M_c(F)。通道注意力机制具体计算如下：

所述CBAM注意力模块，如图3所示，在经过通道注意力模块加权后得到空间注意力模块M_c(F)后，与输入特征F作乘法操作，得到空间注意力模块所需要的输入特征F′，首先将输入特征作基于通道的全局平均池化(AvgPool)和全局最大池化(MaxPool)操作，得到两个H×W×1的特征图，然后将这2个特征图基于通道做concat拼接操作。随之经过一个7×7卷积操作，降维为1个通道，即H×W×1。再经过sigmoid激活函数，生成空间注意力机制特征M_s(F′)。最后将该特征和该模块的输入特征F做乘法，得到最终生成的特征。空间注意力机制具体计算如下：

(4)所述FPN模块加入CBAM注意力模块后，利用1x1卷积调整通道数、上采样、3x3卷积下采样以及堆叠concat等操作完成整个FPN层的构建，实现了不同shape层的特征融合，提取出三个加强特征层。

(5)利用FPN特征金字塔获得三个加强特征层，输入到YoloHead获得预测结果，对于每一个特征层，利用卷积调整通道数，本发明总共采用16种类别，包括有3区共15期眼底图像以及Plus类别；

(6)利用FPN网络得到的三个加强特征层后输入到YoloHead获得的预测结果进行解码操作，调整相关参数，获取最终预测点以及预测框宽高；再将最后的结果进行得分排序，即筛选出得分满足confidence置信度的预测框，以及进行非极大抑制筛选，筛选出一定区域内属于同一种类得分最大的框以得到最终的预测框，完成整个Yolov5预测过程。

S324，基于所述训练集训练网络性能，并保存所述网络结构作为所述病变检测结果。

基于上述的基于深度学习目标检测技术的早产儿视网膜病变检测方法，本实施例设计实验具体内容如下：

(1)数据库

如图5所示，本实施例使用共633张眼底图像作为数据集，其中包括500张患病图像与133张正常眼底图像；而在病变图像中，选择253张按照9:1随机划分为训练集和验证集，另外247张作为测试集；之后利用数据增强方法对训练集和验证集进行数据扩增，得到扩增后的训练集4145张，验证集462张；利用五倍交叉验证评估本发明的表现。

(2)数据扩增

为了防止模型的过拟合并增强模型的泛化能力，在训练过程中对数据进行离线扩增以增加数据的多样性，数据扩增的方法包括随机反转所有像素、随机上下/左右翻转、随机高斯模糊、随机平移、随机旋转、随机对比度增强以及mixup数据增强算法的应用。

(3)实施

基于Pytorch的集成环境和12GB显存空间的NVIDIA 3060完成模型的训练和测试。整个网络模型训练300个epoch，初始学习率设定为0.005，每训练一个epoch，学习率就衰减一次，衰减率设置为0.986，最终学习率固定至0.0001。同时，训练过程中采用GIOU损失训练网络，包括有分类损失、定位损失以及置信度损失。

(4)评估指标

为了定量评估本发明的性能，本实施例采用常见的四个评估指标，分别是准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及F1分数，具体定义如下：

其中TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性。

本实施例利用深度学习中的目标检测技术，并加入了CBAM注意力机制，更优地获取了特征的全局和局部信息，并在训练过程中不断调整模型的参数，同时相较于已有的传统技术，本发明实施例的性能可以随着训练数据也就是眼底图像数量的增加而上升，这极大地提高了本发明的实际可行性。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例二所述的方法。

如图6所示，本发明还提供了一种电子设备，包括处理器301和与所述处理器301连接的存储器302，所述存储器302存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例二所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习目标检测的早产儿视网膜病变检测系统，其特征在于，包括：图像获取模块，图像预处理模块，早产儿视网膜病变分析模块以及病例报告输出模块，其中：

所述图像获取模块用于采集多张早产儿视网膜眼底图像；

2.根据权利要求1所述的一种基于深度学习目标检测的早产儿视网膜病变检测系统，其特征在于，所述图像获取模块采用RetCam采集所述早产儿视网膜眼底图像。

3.根据权利要求1所述的一种基于深度学习目标检测的早产儿视网膜病变检测系统，其特征在于，所述预处理通过OpenCV算法库实施，包括：去除所述早产儿视网膜眼底图像的敏感信息。

4.一种基于深度学习目标检测的早产儿视网膜病变检测方法，采用权利要求1-3所述的系统实现，其特征在于，包括：

S1,基于所述图像获取模块采集多张早产儿视网膜眼底图像；

5.根据权利要求4所述一种基于深度学习目标检测的早产儿视网膜病变检测方法，其特征在于，所述S3包括：

6.根据权利要求5所述一种基于深度学习目标检测的早产儿视网膜病变检测方法，其特征在于，所述S32包括：

7.根据权利要求6所述一种基于深度学习目标检测的早产儿视网膜病变检测方法，其特征在于，所述Yolov5卷积神经网络包括三层，分别是Backbone网络，FPN网络以及YoloHead层；所述Backbone网络为所述Yolov5卷积神经网络的主干网络部分，采用CSPDarknet网络，包括：

f(x)＝x·sigmoid(x)；

8.根据权利要求7所述一种基于深度学习目标检测的早产儿视网膜病变检测方法，其特征在于，所述步骤S323包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求4-8任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求4-8任一所述的方法。