CN111127425A

CN111127425A - 基于视网膜眼底图像的目标检测定位方法和装置

Info

Publication number: CN111127425A
Application number: CN201911339732.2A
Authority: CN
Inventors: 史荣洁; 姜泓羊; 张冬冬; 代黎明
Original assignee: Beijing Zhizhen Internet Technology Co ltd
Current assignee: Beijing Zhizhen Internet Technology Co ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-08
Anticipated expiration: 2039-12-23
Also published as: CN111127425B

Abstract

本申请涉及一种基于视网膜眼底图像的目标检测定位方法，包括：采集当前需要检测的视网膜眼底图像；对视网膜眼底图像进行质量评估，得到相应的质量评估结果；在质量评估结果为清晰可见时，采用第一神经网络模型对视网膜眼底图像进行检测，定位出视网膜眼底图像中的异常区域；其中，异常区域包括病灶区域和形态异常区域；将定位出的异常区域由视网膜眼底图像中分割出来，并采用第二神经网络模型对分割出来的异常区域进行异常引发因素分析，确定并抑制由噪声引发的异常后，在视网膜眼底图像中标注出除由噪声引发的异常之外的其他异常区域，并输出标注后的眼底图像。其有效提高了眼底图像检测结果的精确度。

Description

基于视网膜眼底图像的目标检测定位方法和装置

技术领域

本公开涉及医学图像处理技术领域，尤其涉及一种基于视网膜眼底图像的目标检测定位方法和装置、设备及存储介质。

背景技术

近年来，随着人工智能时代的到来，医学成像采集设备的不断完善，以及图像处理、机器学习、深度学习等技术的不断发展，越来越多的技术研发人员投入到AI医学领域中，使得医学图像取得了丰硕的成果。特别是深度学习的兴起，让医学图像异常检测更加精准和高效，对医生诊断起到了很强的辅助作用，节省了医生的工作时间。但是，在相关技术中，应用深度学习的方法对眼底图像进行异常检测中，通常只是检测眼底图像中的病灶异常，对于激光斑等形态的异常不能检测出来，这就导致相关应用深度学习进行眼底图像异常检测的技术的检测结果不够全面，从而影响检测结果的准确度。

发明内容

有鉴于此，本公开提出了一种基于视网膜眼底图像的目标检测定位方法，可以有效提高了检测结果的精确度。

根据本公开的一方面，提供了一种基于视网膜眼底图像的目标检测定位方法，包括：

采集当前需要检测的视网膜眼底图像；

对所述视网膜眼底图像进行质量评估，得到相应的质量评估结果；

在所述质量评估结果为清晰可见时，采用第一神经网络模型对所述视网膜眼底图像进行检测，定位出所述视网膜眼底图像中的异常区域；

其中，所述异常区域包括病灶区域和形态异常区域；

将定位出的所述异常区域由所述视网膜眼底图像中分割出来，并采用第二神经网络模型对分割出来的所述异常区域进行异常引发因素分析，确定并抑制由噪声引发的异常后，在所述视网膜眼底图像中标注出除由所述噪声引发的异常之外的其他异常区域，并输出标注后的眼底图像。

在一种可能的实现方式中，对所述视网膜眼底图像进行质量评估，得到相应的质量评估结果，包括：

对所述视网膜眼底图像进行预处理，包括去除视网膜眼底图像中的黑边、尺寸缩放、归一化中的至少一种；

将预处理后的视网膜眼底图像输入至深度学习分类网络模型中，由所述深度学习分类网络模型对预处理后的视网膜眼底图像进行质量评估，得到所述质量评估结果。

在一种可能的实现方式中，去除所述视网膜眼底图像中的黑边，包括：

对所述视网膜眼底图像进行中值滤波，去除所述黑边中的噪声；

分别沿所述视网膜眼底图像的宽度方向和高度方向正向遍历所述视网膜眼底图像，确定出沿宽度方向遍历过的像素点的像素和大于第一阈值时的第一位置坐标和沿高度方向遍历过的像素点的像素和大于所述第一阈值时的第二位置坐标；

分别沿所述视网膜眼底图像的宽度方向和高度方向反向遍历所述视网膜眼底图像，确定出沿宽度方向遍历过的像素点的像素和大于第一阈值时的第三位置坐标和沿高度方向遍历过的像素点的像素和大于所述第一阈值时的第四位置坐标；

以所述第一位置坐标作为左边界、以所述第二位置坐标作为上边界、所述第三位置坐标作为右边界和以所述第四位置坐标作为下边界，对所述视网膜眼底图像进行裁剪，得到去除黑边后的视网膜眼底图像；

其中，所述正向遍历包括沿所述视网膜眼底图像的宽度方向由左到右遍历和沿所述视网膜眼底图像的高度方向由上到下遍历；

所述反向遍历包括沿所述视网膜眼底图像的宽度方向由右至左遍历和沿所述视网膜眼底图像的高度方向由下至上遍历；

所述第一阈值的取值通过公式：

计算得到；

w为所述视网膜眼底图像的宽度，h为所述视网膜眼底图像的高度。

在一种可能的实现方式中，采用第一神经网络模型对所述视网膜眼底图像进行检测，定位出所述视网膜眼底图像中的异常区域，包括：

采用自适应直方图均衡化算法对所述视网膜眼底图像进行处理，得到相应的眼底图像；

通过所述第一神经网络模型对所述眼底图像进行检测得到多个检测框，并基于所述第一神经网络模型算法，确定各所述检测框的类别和预测分数；

根据各所述检测框的所述预测分数与各所述异常状态标签所对应的分数阈值之间的大小关系，由多个所述检测框中确定出优选检测框；

其中，所述预测分数用于表征各所述检测框被标注为任一所述异常状态标签的概率；

所述优选检测框的个数为多个，且不同的所述优选检测框标注所述眼底图像中的不同的病灶区域和形态异常区域。

在一种可能的实现方式中，基于第一神经网络模型算法，确定各所述检测框的类别和预测分数，包括：

基于所述第一神经网络模型最后的输出单元通过softmax函数输出每个标签的相对概率，取相对概率最大的类别作为预测的类别；

其中，所述相对概率为所述类别标签的预测分数；

所述相对概率由通过公式：

计算得到；

其中，i表示类别索引，V_i表示分类器前级输出单元的输出，C表示类别的总数，S_i表示i类别的相对概率。

在一种可能的实现方式中，所述异常状态标签包括点状出血标签、片状出血标签、点状黄白色标签、片状黄白色标签、视网膜褶皱标签、血管迂曲标签、激光斑标签和豹纹状眼底标签中的至少一种；

区域位置标签包括视盘位置标签和黄斑位置标签；

其中，所述片状黄白色标签所对应的分数阈值为0.358；所述片状出血标签所对应的分数阈值为0.3；所述点状出血标签所对应的分数阈值为0.25；所述点状黄白色标签所对应的分数阈值为0.08；

所述黄斑位置标签所对应的分数阈值为0.3；所述视网膜褶皱标签所对应的分数阈值、所述血管迂曲标签所对应的分数阈值、所述激光斑标签所对应的分数阈值、所述豹纹状眼底标签所对应的分数阈值、以及所述视盘位置标签所对应的分数阈值均为0.1。

在一种可能的实现方式中，所述第二神经网络模型的网络结构为依次级联的输入层、第一卷积层、池化层、第一残差单元、第二残差单元、全局平均池化层、全连接层和输出层；

其中，所述第一卷积层的卷积核为7*7卷积核；

所述第一残差单元包括级联的第二卷积层和第三卷积层；所述第二卷积层的卷积核和所述第三卷积层的卷积核均为3*3卷积核；

所述第二残差单元包括级联的第四卷积层和第五卷积层；所述第四卷积层的卷积核和所述第五卷积层的卷积核均为3*3卷积核。

根据本申请的一方面，还提供了一种基于视网膜眼底图像的目标检测定位装置，包括：图像采集模块、质量评估模块、异常定位模块、异常分类模块和输出模块；

所述图像采集模块，被配置为采集当前需要检测的视网膜眼底图像；

所述质量评估模块，被配置为对所述视网膜眼底图像进行质量评估，得到相应的质量评估结果；

所述异常定位模块，被配置为在所述质量评估模块评估出所述视网膜眼底图像为清晰可见的眼底图时，采用第一神经网络模型对所述视网膜眼底图像进行检测，定位出所述视网膜眼底图像中的异常区域；其中，所述异常区域包括病灶区域和形态异常区域；

所述异常分类模块，被配置为将定位出的所述异常区域由所述视网膜眼底图像中分割出来，并采用第二神经网络模型对分割出来的所述异常区域进行异常引发因素分析，确定并抑制由噪声引发的异常后，在所述视网膜眼底图像中标注出除由所述噪声引发的异常之外的其他异常区域；

所述输出模块，被配置为输出标注后的眼底图像；

其中，标注后的眼底图像中标注有除由所述噪声引发的异常区域之外的其他异常区域。

根据本申请的另一方面，还提供了一种基于视网膜眼底图像的目标检测定位设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。

根据本申请的一方面，还提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前面任一所述的方法

本申请的基于视网膜眼底图像的目标检测定位方法通过对当前需要检测的视网膜眼底图像进行质量评估，在评估出视网膜眼底图像的质量为清晰可见后，再通过采用第一神经网络模型对视网膜眼底图像进行检测，定位出视网膜眼底图像中的病灶区域和形态异常区域。从而使得对眼底图像的检测更加全面完整，这也就保证了检测结果的准确性。

同时，在本申请中，在检测定位出视网膜眼底图像中的病灶区域和形态异常区域后，再将定位出的异常区域由视网膜眼底图像中分割出来，并采用第二神经网络模型对分割出来的异常区域进行异常引发因素分析，确定并抑制由噪声引发的异常后，在视网膜眼底图像中标注出除由噪声引发的异常之外的其他异常区域，从而使得最终输出的标注后的眼底图像中只存在真正的异常区域。抑制了噪声干扰，从而也就更进一步地提高了眼底图像检测结果的精确度。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出本申请的基于视网膜眼底图像的目标检测定位方法的流程图；

图2示出本申请的基于视网膜眼底图像的目标检测定位方法中质量评估结果为清晰可见的眼底图像图；

图3示出本申请的基于视网膜眼底图像的目标检测定位方法中质量评估结果为模糊的一种眼底图像图；

图4示出本申请的基于视网膜眼底图像的目标检测定位方法中质量评估结果为模糊的另一种眼底图像图；

图5示出本申请的基于视网膜眼底图像的目标检测定位方法中质量评估结果为模糊的又一种眼底图像图；

图6示出本申请的基于视网膜眼底图像的目标检测定位方法中在采用第一神经网络模型对所述视网膜眼底图像进行检测时，对视网膜眼底图像进行数据预处理的流程图；

图7示出本申请的基于视网膜眼底图像的目标检测定位方法中对应id4区域面积中含有眼底图像成像区域面积S1，整个id4区域面积S2的示意图；

图8示出本申请的基于视网膜眼底图像的目标检测定位方法中id9中心到id10中心的水平位移X和垂直位移Y的示意图；

图9示出本申请的基于视网膜眼底图像的目标检测定位方法中所采用的第二神经网络模型的网络结构；

图10示出本申请的基于视网膜眼底图像的目标检测定位方法中所采用的的第二神经网络模型中的第一残差单元的网络结构；

图11示出本申请的基于视网膜眼底图像的目标检测定位装置的结构框图；

图12示出本申请的基于视网膜眼底图像的目标检测定位设备的结构框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的基于视网膜眼底图像的目标检测定位方法的流程图。如图1所示，该方法包括：步骤S100，采集当前需要检测的视网膜眼底图像。此处，需要说明的是，对视网膜眼底图像的采集可以通过常规的眼底图像采集装置来实现。眼底图像采集装置可以包括手持相机，也可以包括台式相机，还可以为实现存储有眼底图像的电子设备。

在采集获取到当前需要进行检测的视网膜眼底图像后，即可执行步骤S200，对视网膜眼底图像进行质量评估，得到相应的质量评估结果。此处，需要指出的是，由于通过眼底图像采集装置采集到的视网膜眼底图像的质量千差万别，因此在进行视网膜眼底图像的检测之前需要先对视网膜眼底图像的质量进行把控，以避免对不符合质量要求的眼底图像进行不必要的检测的情况。其中，在本申请方法中，对视网膜眼底图像进行质量评估时主要是对视网膜眼底图像的清晰度进行评估。参阅图2，为本申请方法中所定义的清晰可见的眼底图像图。即，本申请中质量评估结果为清晰可见的眼底图像为视盘和黄斑均可见的眼底图像。质量评估结果为模糊的眼底图像则包括视盘、黄斑区域均不可见(参阅图3)，图像暗黑(参阅图4)和非常模糊(参阅图5)中的任意一种。同时，还需要指出的是，在本申请的方法中，对视网膜眼底图像进行质量评估时，可以采用深度学习的方式来实现。即，采用深度学习分类网络模型对视网膜眼底图像进行高质量和低质量的分类，从而实现对视网膜眼底图像的质量评估。

在通过上述步骤确定出当前检测的视网膜眼底图像为清晰可见的眼底图像后，即可执行步骤S300，采用第一神经网络模型对视网膜眼底图像进行检测，定位出视网膜眼底图像中的异常区域。此处，需要指出的是，在采用第一神经网络模型对视网膜眼底图像进行检测定位出的异常区域包括病灶区域和形态异常区域。

进而通过步骤S400，将定位出的异常区域由视网膜眼底图像中分割出来，并采用第二神经网络模型对分割出来的异常区域进行异常引发因素分析，确定并抑制由噪声引发的异常后，在视网膜眼底图像中标注出除由噪声引发的异常之外的其他异常区域，并输出标注后的眼底图像。

由此，本申请的基于视网膜眼底图像的目标检测定位方法通过对当前需要检测的视网膜眼底图像进行质量评估，在评估出视网膜眼底图像的质量为清晰可见后，再通过采用第一神经网络模型对视网膜眼底图像进行检测，定位出视网膜眼底图像中的病灶区域和形态异常区域。从而使得对眼底图像的检测更加全面完整，这也就保证了检测结果的准确性。

进一步的，在本申请方法中，在对视网膜眼底图像进行质量评估时，可以通过以下方式来实现。即，首先对所述视网膜眼底图像进行预处理，包括去除视网膜眼底图像中的黑边、尺寸缩放、归一化等操作中的至少一种。然后，再将预处理后的视网膜眼底图像输入至深度学习分类网络模型中，由深度学习分类网络模型对预处理后的视网膜图像进行质量评估，得到相应的质量评估结果。

其中，在一种可能的实现方式中，由于视网膜眼底图像的尺寸多样化，使得不同尺寸的视网膜眼底图像的黑边的位置大小不一。因此，为了保证黑边去除的精确度，可以采用多尺度自适应去除黑边的方式来实现视网膜眼底图像中黑边的去除。

此处，需要说明的是，多尺度自适应去除黑边的原理为：首先对图像进行中值滤波，滤除黑边中的噪声，然后通过正向遍历图像和反向遍历图像的方式确定裁剪的边界(包括左边界、右边界、上边界和下边界)，进而再基于确定的裁剪边界对视网膜眼底图像进行裁剪，将黑边区域裁剪掉即可。

其中，本领域技术人员可以理解的是，对图像进行中值滤波以去除黑边区域中的噪声可以采用本领域的常规技术手段来实现。因此此处不再进行赘述。所需要说明的是，在本申请中，对图像进行中值滤波时所选取的阈值的取值可以设置为5。

进一步地，通过正向遍历图像和反向遍历图像的方式确定裁剪的边界可以采用以下方式来实现。

即，分别沿视网膜眼底图像的宽度方向和高度方向正向遍历视网膜眼底图像，确定出沿宽度方向遍历过的像素点的像素和大于第一阈值时的第一位置坐标和沿高度方向遍历过的像素点的像素和大于第一阈值时的第二位置坐标。此处，需要说明的是，正向遍历包括沿视网膜眼底图像的宽度方向由左至右遍历视网膜眼底图像中的像素点，还包括沿视网膜眼底图像的高度方向由上至下遍历视网膜眼底图像中的像素点。

也就是说，通过沿视网膜眼底图像的宽度方向由左至右依次遍历视网膜眼底图像中的像素点，同时计算遍历过的各像素点的像素值之和，在遍历到像素值之和大于第一阈值时，则可以确定当前遍历到的像素点的位置即为左边界位置。通过沿视网膜眼底图像的高度方向由上至下依次遍历视网膜眼底图像中的像素点，同时计算遍历过的各像素点的像素值之和，在遍历到像素值之和大于第一阈值时，则可以确定当前遍历到的像素点的位置即为上边界位置。同时，还需要指出的是，在沿宽度方向遍历时，可以通过以视网膜眼底图像的左上角为坐标原点构建坐标系，以坐标系中的横轴与视网膜眼底图像的边界的交点作为起始遍历点。在沿高度方向遍历时，则可以以坐标系中的纵轴与视网膜眼底图像的边界的交点作为起始遍历点。

分别沿视网膜眼底图像的宽度方向和高度方向反向遍历视网膜眼底图像，确定出沿宽度方向遍历过的像素点的像素和大于第一阈值时的第三位置坐标和沿高度方向遍历过的像素点的像素和大于第一阈值时的第四位置坐标。此处，需要说明的是，反向遍历则包括沿视网膜眼底图像的宽度方向由右至左依次遍历视网膜眼底图像的像素点，还包括沿视网膜图像的高度方向由下至上依次遍历视网膜眼底图像的像素点。其中，具体的遍历过程与前面所述的正向遍历过程相同或相似，此处不再进行赘述。

然后，以第一位置坐标作为左边界、以第二位置坐标作为上边界、第三位置坐标作为右边界和以第四位置坐标作为下边界，对视网膜眼底图像进行裁剪，得到去除黑边后的视网膜眼底图像。

此处，还需要指出的是，第一阈值的取值可以根据实际情况灵活设置。在一种可能的实现方式中，可以通过公式：

计算得到。其中，w为视网膜眼底图像的宽度，h为视网膜眼底图像的高度。通过上述计算公式确定第一阈值的取值，使得第一阈值的确定更加符合当前正在检测的视网膜眼底图像，从而使得黑边的去除更加精确。

另外，还需要说明的是，在通过上述任一种方式去除视网膜眼底图像中的黑边区域后，即可对去除黑边区域的视网膜眼底图像进行其他预处理。其他预处理的方法可以包括尺寸缩放和归一化操作中的至少一种。尺寸缩放和归一化操作可以采用本领域常规技术手段来实现，因此此处不再进行赘述。

同时，还需要指出的是，对视网膜眼底图像进行上述处理后，即可将预处理后的视网膜眼底图像输入至深度学习分类网络模型中，由深度学习分类网络模型对预处理后的视网膜眼底图像进行质量评估。其中，所使用的深度学习分类网络模型为预先训练后的网络模型。在一种可能的实现方式中，在对深度学习分类网络模型进行训练时，可以通过以下方式来实现。

即，首先构造深度学习分类网络模型训练的数据集。数据集包括两类，第一类是清晰可见的眼底图，记为负样本数据集，第二类是质量不合格的眼底图，包括前面所述的视盘、黄斑等区域均不可见的、过暗、非常模糊的眼底图，记为正样本，各2000张，正负样本比例为1：1，眼底图既包括台式图像，也包括手持图像。

然后，对数据集做预处理操作。此处，需要说明的是，对数据集所做的预处理操作与前面所述的去除黑边的处理和去除黑边的预处理方式相同或相似，因此此处不再进行赘述。

进而，对于数据集，需要转化成符合TensorFlow要求的TFRecord格式，该格式的文件是一种将图像数据和标签统一存储的二进制文件，每一个该文件包含tf.train.Example协议缓冲区。

然后，设计深度学习分类网络模型。其中，在一种可能的实现方式中，选取slim中提供的预训练模型，获得学习参数，使之成为功能强大的近似函数，使效果达到最佳。Pnasnet-5是一种高效搜索CNN结构的渐进式神经架构搜索方法，使用了基于序列模型优化(SMBO)策略和用于复杂搜索的代理函数。在一张图中概率最大记为正确的情况下，该方法分类的准确率达到82.9％，在一张图中概率前五中包含正确答案记为正确的情况下，准确率达到96.2％。比VGG、Resnet、Inception等准确率要高。在本申请的方法中，具体为采用Pnasnet-5_large网络来训练数据。

随后进行训练模型。这个阶段包括两个部分，一部分是模型参数的设置，另一部分采用训练过程中动态扩增数据。在模型参数设置中，由于划分的类别为2类与预训练模型的类别不同，我们只需要训练更新最后的logits层即可，因此，在设置时需要加入checkpoint_exclude_scopes和trainable_scopes，并将model_name设置成pnasnet，指定要读取数据集的TFRcored文件位置。同时，设置训练批次大小(batch_size)为16，学习率(learning_rate)设置为0.01，之后训练步数每过50个周期(epoch)，学习率为原来的1/10，权重衰减(weight_decay)设为0.00004。此处，需要指出的是，在训练过程中动态扩增数据，本申请中不限于平移、旋转、镜像、改变亮度、裁剪、加入噪声等数据扩增的方法，以使训练数据多样化，防止欠拟合和过拟合。

训练好模型之后，即可验证模型的准确率和召回率，选取其中最优的模型进行冻结，将所有的结构图和参数冻结成pb文件。最后，再通过测试阶段，选取一批图像，通过图像裁剪、图像缩放、归一化等操作之后，导入冻结好的模型文件，分别输出清晰可见类别的图像和低质量类别的图像。

在通过上述任一种方式对视网膜眼底图像进行质量评估后，在质量评估结果为清晰可见时，即可采用第一神经网络模型对视网膜眼底图像进行检测，定位出视网膜眼底图像中的异常区域。

此处，需要说明的是，由于在对视网膜眼底图像进行检测时采用的第一神经网络模型。该第一神经网络模型可以选取Faster Rcnn网络来实现。Faster Rcnn网络对于需要检测出点状出血、片状出血、点状黄白色、片状黄白色、视网膜褶皱、血管迂曲、激光斑、豹纹眼底8种异常症状，以及视盘位置和黄斑位置2种区域位置，效果较好。

同时，在采用第一神经网络模型(即，Faster Rcnn网络)对视网膜眼底图像进行检测时需要先对第一神经网络模型进行训练。其中，在一种可能的实现方式中，对第一神经网络模型进行训练可以通过以下几个步骤来实现。

即，首先进行数据标注，从通过前面任一方式输出的清晰可见类别的图像中选取5000张眼底图原图，由专业眼科医生组成的标注团队对8种眼底异常情况以及视盘和黄斑2种区域位置进行标注，分别记为id1、id2、id3、id4、id5、id6、id7、id8、id9、id10，如前面表1所示。

表1各标签和代表内容的对应关系

标签	代表内容
		id1	点状出血
id2	片状出血
		id3	点状黄白色
id4	片状黄白色
		id5	视网膜褶皱
id6	血管迂曲
		id7	激光斑
id8	豹纹状眼底
		id9	视盘
id10	黄斑

进而对数据进行预处理。具体的，对以上步骤中的5000张眼底图随机选取其中400张增加彩色噪声，将添加彩色噪声的原图也保留，重命名添加彩色噪声之后的眼底图像和对应的xml文件，并对这5400张图像自适应直方图均衡化。自适应直方图均衡化算法用于提升图像中异常区域和背景的对比度，和一般的直方图均衡化不同的是，该算法用局部直方图匹配的方法挨个处理图像的对比度，之后使用双线性内插法将邻近四个点像素值，按照到内插点的距离赋予不同的权重，进行线性内插，可以避免放大噪声，在本申请中，使用局部直方图匹配的方式对数据进行处理过程中使用’NumTiles’为[10,10],'ClipLimit'为0.01。数据预处理的流程可参阅图6。

随后，将数据集转化成符合TensorFlow要求的TFRecord格式的文件，统一存储图像数据和标签。

进而进行模型训练。在训练之前，加载预训练模型，选用resnet101作为预训练模型，使检测出来的异常种类更多些。设置label.pbtxt文件，将对应的id和name记录清楚。设置类别数(num_classes)为10，优化方法采用自适应优化方法，设置初始learning_rate为0.01，训练步数每过1000步，learning_rate降为原来的1/10。设置batch_size为1。迭代次数(num_steps)设置为1000000。同时在训练过程中采用动态数据扩增，包括但不限于随机裁剪，随机翻转，随机亮度、对比度、色度、饱和度设置，随机图片缩放等，增强训练数据的多样性。最后，从训练好的模型中选取最优模型，进行冻结，将所有的结构图和参数冻结成pb文件。由此，通过以上步骤即可实现对第一神经网络模型的训练。

相应的，在使用训练好的第一神经网络模型对视网膜眼底图像进行检测时，同样需要对当前正在检测的视网膜眼底图像进行处理。其处理方式与第一神经网络模型训练过程中对数据集的处理方式相同。即，需要对视网膜眼底图像去除黑边区域并把周围剩余的黑边区域反色以便于只显示出眼底图。同时，还对去除黑边后的视网膜眼底图像进行自适应直方图均衡化处理。也就是说，采用自适应直方图均衡化算法对视网膜眼底图像进行处理，得到相应的眼底图像。随后将处理后得到的眼底图像加载至模型文件中，并加载标签文件，根据8种异常状态标签和2种区域位置标签的不同，对检测出来的多个(具体为500个)检测框，用分数抑制的方式选取最合适的检测框。

此处，需要指出的是，在使用训练好的第一神经网络模型对眼底图像进行检测过程中，会发现一些彩虹噪声会被当作id4检测出来，但这些彩虹噪声一般出现在眼底图的边缘，并且区域面积较大，大于id9的区域面积，而一些正常的id4很少出现在边缘以外，同时正常的视神经反光也被当作id4检测出来，而被标出来的视神经反光往往跟id9相交，且区域面积大于id9的区域面积，而正确的id4与视盘相交的情况下，区域面积较小，小于id9的区域面积。

另外，id9，id10有的被检测出来多个，但一般来说，一幅眼底图像应该有一个id9和一个id10。因此，在检测出来的标签中，需要对id4和id9、id10单独处理，解决id9、id10的重复和位置异常问题，解决id4中彩虹和视神经反光问题。其中，对于id4、id9和id10，存在8种情况：

一是id9、id10、id4均不存在时，其余正常标注；二是id9、id10不存在，id4存在，则把id4加入标注队列；三是id9和id4不存在，id10存在，则标注其他标签即可，不标注id10，因为这里id10没有参照物，无法确认标注出来的是否正确，为了防止错误，选择不标注这里的id10；四是id9不存在，id10和id4存在，则标注id4，五是id9存在，id10和id4不存在，则取检测出来的视盘中分数最大的那个；六是id9和id4存在，id10不存在，则取分数最大的id9，同时比较检测出来的id4和id9的位置，如果相交且区域面积大于id9的区域面积则不标注，否则，设置一个变量S，表示id4区域面积中含有眼底图像成像区域面积与整个id4区域面积之比，若S大于0.78，就不标注，否则标注，id4区域面积中含有眼底图像成像区域面积与整个id4区域面积如图7所示。S1表示id4区域面积中含有眼底图像成像区域面积，S2表示整个id4区域面积，则S＝S1/S2；七是id9和id10都存在，id4不存在，则id9中取分数最大的那个，设置一个变量X，表示id9中心到id10中心的水平位移,设置一个变量Y,表示id9中心到id10中心的垂直位移,如果3<＝X<6，0<＝Y<＝2的标注，不在这个范围之内的不标注,X、Y表示如图8所示；八是id9、id10和id4均存在的情况下，先按照上述方法取出正确的id9和id10，然后比较id9和id4，如果相交且id4的区域面积大于id9的区域面积，则不标注，如果不相交，同样，仍取上述变量S，若S大于0.78，就不标注，否则标注。

即，在采用自适应直方图均衡化算法对视网膜眼底图像进行处理得到相应的眼底图像后，即可通过上述任一方式使用第一神经网络模型对眼底图像进行检测得到多个检测框，并基于预先设置的多个异常状态标签和区域位置标签，确定各检测框的预测分数。根据各检测框的预测分数与各异常状态标签所对应的分数阈值之间的大小关系，从多个检测框中确定出优选检测框。同时，根据前面所述，优选检测框(即，最合适的检测框)的个数可以为多个，其中视盘和黄斑的标签各自最多只有一个，且不同的优选检测框标注眼底图像中的不同的病灶区域、形态异常区域和位置区域。

在一种可能的实现方式中，基于预先设置的多个异常状态标签和区域位置标签，确定各检测框的预测分数可以通过以下方式来实现。即，基于第一神经网络模型最后的输出单元通过softmax函数输出每个标签的相对概率，取相对概率最大的那一类别作为预测的类别，同时，对应的相对概率为该类别标签的预测分数。

另外，还需要指出的是，在一种可能的实现方式中，不同异常区域所对应的分数阈值可以设置为不同取值。举例来说，片状黄白色标签所对应的分数阈值为0.358；片状出血标签所对应的分数阈值为0.3；点状出血标签所对应的分数阈值为0.25；点状黄白色标签所对应的分数阈值为0.08；黄斑位置标签所对应的分数阈值为0.3；视网膜褶皱标签所对应的分数阈值、血管迂曲标签所对应的分数阈值、激光斑标签所对应的分数阈值、豹纹状眼底标签所对应的分数阈值、以及视盘位置标签所对应的分数阈值均为0.1。

进一步的，不同形式的视网膜眼底图像所对应的的各异常状态标签的分数阈值也可不同。即，对于手持图像(即，通过手持相机采集到的眼底图像)可按照上述取值进行设置。台式图像(即，通过台式相机采集到的眼底图像)设置分数阈值时可以与手持图像的相一致。同时，由于彩虹噪声一般出现在手持图像中，因此在检测时如果当前正在检测的视网膜眼底图像为手持图像，则需要抑制id4中的彩虹噪声；如果当前正在检测的视网膜眼底图像为台式图像，则不处理彩虹噪声。

更进一步的，在通过使用第一神经网络模型对视网膜眼底图像进行检测过程中只是对存在的彩虹噪声做了部分抑制，而有些彩虹噪声处在眼底图中间部位，且跟视盘不相交的话，就无法抑制掉，另外还有其他一些如镜头污点等噪声，也无法抑制掉。因此，在本申请中为了使得最终定位出的异常区域更加精确，还需要把检测定位出来的异常区域中的噪声剔除掉。

在一种可能的实现方式中，可以通过将定位出的所述异常区域由视网膜眼底图像中分割出来，并采用第二神经网络模型对分割出来的异常区域进行异常引发因素分析，确定并抑制由噪声引发的异常后，在视网膜眼底图像中标注出除由噪声引发的异常之外的其他异常区域的方式来实现。

此处，需要说明的是，将定位出来的异常区域由视网膜眼底图像中分割出来可以采用本领域常规技术手段来实现，此处不再进行赘述。

参阅图9，所使用的第二神经网络模型的网络结构可以为依次级联的输入层、第一卷积层、池化层、第一残差单元、第二残差单元、全局平均池化层、全连接层和输出层。其中，第一卷积层的卷积核为7*7卷积核。参阅图10，第一残差单元包括级联的第二卷积层和第三卷积层。第二卷积层的卷积核和第三卷积层的卷积核均为3*3卷积核。第二残差单元包括级联的第四卷积层和第五卷积层；第四卷积层的卷积核和第五卷积层的卷积核均为3*3卷积核。

相应的，在使用上述网络结构的第二神经网络模型对检测定位出异常区域的视网膜眼底图像进行再次精准分类之前，同样需要对第二神经网络模型进行训练。训练过程可以通过以下方式来实现。

即，首先构造模型训练的数据集，数据集包括两类，一类是真正异常的区域眼底图作为正样本集，另一类是噪声的区域眼底图作为负样本集。获得的方法有两种，一种是分割前一步骤中检测出来的异常区域，获得id1，id2，id3，id4，id5，id6，id7，id8的区域；另一种，从视网膜眼底图像采集装置采集的图像或者其他设备上的眼底图像中，筛选出含有异常状态和噪声的眼底图，利用图像分割技术，分割其中的异常区域和噪声。通过专业医学团队鉴别出是真正异常还是噪声，加入训练集。共收集4000张眼底图作为训练集数据。

然后，进行图像标准化。这是由于视网膜眼底图中的异常区域和噪声区域有大有小，不利于网络模型的学习，因此，为更精准更快速的训练数据集，将大的图像标准化为128*128,将小的图像标准化为64*64。

接着，将标准化后的数据集转化成符合TensorFlow要求的TFRecord格式的二进制文件。

进而，设计病灶及形态异常疑似区域精准分类网络模型(即，第二神经网络模型)。利用经典的卷积神经网络，一般包括卷积、池化、全局平均池化、全连接，利用Relu激活函数，克服梯度消失的问题，加快训练速度。另外，也利用残差学习解决增加网络深度带来的梯度爆炸和消失问题，还包括防止过拟合的BN(Batch Normalization)操作。该模型的网络结构设计了6层，如图9所示，采用的残差学习单元如图10所示，假设x是输入特征，学习到的特征记为H(x),则学习到的残差为F(x)＝H(x)-x,当残差F(x)为0时，此时就是恒等映射(Identity mapping)，不会使网络性能下降，实际上残差F(x)不为0，网络学习到新的特征，更不会使网络性能下降。

随后进行模型训练。这个阶段包括两个部分，一部分是模型参数的设置，另一部分采用训练过程中动态扩增数据。设置batch_size为8，初始learning_rate为0.001，利用Adam优化器，可以提升计算效率和降低计算内存，num_step设置为300000。在训练过程中动态扩增数据，本申请中不限于平移、旋转、镜像、改变亮度等数据扩增的方法，使训练数据多样化。

接着，在训练好模型之后，验证模型的准确率和召回率，选取其中最优的模型进行冻结，将所有的结构图和参数冻结成pb文件。

由此，通过第一神经网络模型对视网膜眼底图像进行检测的步骤中得到的眼底图作为测试集，分割出测试眼底图中检测出来的异常区域，导入以上步骤冻结的pb文件，分出哪些是真正的异常，哪些是噪声引起的异常，抑制噪声引起的异常，在眼底图的原图上框出真正的异常区域。

最后，再通过输出装置输出标注后的眼底图像。此处，需要说明的是，在本申请中，输出装置包括但不限于显示器、打印机等设备，最终呈现真正异常状态的标注，以及对真正异常状态所属眼底图的视盘、黄斑还是视网膜区域给出文字判定结果以及相关医学治疗方案建议。

这样，通过在对视网膜眼底图像进行异常区域的检测定位之前，对视网膜眼底图像的质量进行评估，筛选出清晰可见的眼底图，识别出视盘、黄斑等区域均不见、图像暗黑、图像模糊等低质量的图像；其次，在图像预处理中，采用了自适应去除黑边算法，即对不同尺寸的图像采取去除黑边操作；再次，使用视网膜眼底图像病灶及形态异常区域定位算法模型(即，第一神经网络模型)，检测出视网膜眼底图像中的病灶和异常状态，同时，勾画出视网膜眼底图像中的视盘和黄斑区域；最后，给出元素级区域异常分析结果。

由此，其不仅实现了对检测出来的异常状态的定位，同时还划分了眼底中所属区域(即，视盘、黄斑和视网膜)；抑制检测出来的非异常状态，如彩虹噪声、视神经反光等正常状态，并且利用视网膜眼底图像病灶及形态异常区域定位和病灶及形态异常疑似区域精准分类两种深度学习模型级联的方式进一步对噪声干扰进行抑制。最终有效提高了视网膜眼底图像检测结果的精确度。

相应的，基于同一发明构思，本申请还提供了一种基于视网膜眼底图像的目标检测定位装置。由于本申请提供的基于视网膜眼底图像的目标检测定位装置的工作原理与本申请的基于视网膜眼底图像的目标检测定位方法的原理相同或相似，因此重复之处不再赘述。

参阅图11，本申请提供的基于视网膜眼底图像的目标检测定位装置100包括图像采集模块110、质量评估模块120、异常定位模块130、异常分类模块140和输出模块150。其中，图像采集模块110，被配置为采集当前需要检测的视网膜眼底图像。质量评估模块120，被配置为对视网膜眼底图像进行质量评估，得到相应的质量评估结果。异常定位模块130，被配置为在质量评估模块120评估出视网膜眼底图像为清晰可见的眼底图时，采用第一神经网络模型对视网膜眼底图像进行检测，定位出视网膜眼底图像中的异常区域；其中，异常区域包括病灶区域和形态异常区域。异常分类模块140，被配置为将定位出的异常区域由视网膜眼底图像中分割出来，并采用第二神经网络模型对分割出来的异常区域进行异常引发因素分析，确定并抑制由噪声引发的异常后，在视网膜眼底图像中标注出除由噪声引发的异常之外的其他异常区域。输出模块150，被配置为输出标注后的眼底图像。其中，标注后的眼底图像中标注有除由噪声引发的异常区域之外的其他异常区域。

更进一步地，根据本公开的另一方面，还提供了一种基于视网膜眼底图像的目标检测定位设备200。参阅图12，本公开实施例基于视网膜眼底图像的目标检测定位设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中，处理器210被配置为执行可执行指令时实现前面任一所述的基于视网膜眼底图像的目标检测定位方法。

此处，应当指出的是，处理器210的个数可以为一个或多个。同时，在本公开实施例的基于视网膜眼底图像的目标检测定位设备200中，还可以包括输入装置230和输出装置240。其中，处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器220作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的基于视网膜眼底图像的目标检测定位方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块，从而执行基于视网膜眼底图像的目标检测定位设备200的各种功能应用及数据处理。

输入装置230可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。

根据本公开的另一方面，还提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器210执行时实现前面任一所述的基于视网膜眼底图像的目标检测定位方法。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于视网膜眼底图像的目标检测定位方法，其特征在于，包括：

采集当前需要检测的视网膜眼底图像；

其中，所述异常区域包括病灶区域和形态异常区域；

2.根据权利要求1所述的方法，其特征在于，对所述视网膜眼底图像进行质量评估，得到相应的质量评估结果，包括：

3.根据权利要求2所述的方法，其特征在于，去除所述视网膜眼底图像中的黑边，包括：

所述第一阈值的取值通过公式：

计算得到；

4.根据权利要求1所述的方法，其特征在于，采用第一神经网络模型对所述视网膜眼底图像进行检测，定位出所述视网膜眼底图像中的异常区域，包括：

5.根据权利要求4所述的方法，其特征在于，基于第一神经网络模型算法，确定各所述检测框的类别和预测分数，包括：

其中，所述相对概率为所述类别标签的预测分数；

所述相对概率由通过公式：

计算得到；

6.根据权利要求4所述的方法，其特征在于，所述异常状态标签包括点状出血标签、片状出血标签、点状黄白色标签、片状黄白色标签、视网膜褶皱标签、血管迂曲标签、激光斑标签和豹纹状眼底标签中的至少一种；

区域位置标签包括视盘位置标签和黄斑位置标签；

7.根据权利要求1至6任一项所述的方法，其特征在于，所述第二神经网络模型的网络结构为依次级联的输入层、第一卷积层、池化层、第一残差单元、第二残差单元、全局平均池化层、全连接层和输出层；

其中，所述第一卷积层的卷积核为7*7卷积核；

8.一种基于视网膜眼底图像的目标检测定位装置，其特征在于，包括图像采集模块、质量评估模块、异常定位模块、异常分类模块和输出模块；

所述输出模块，被配置为输出标注后的眼底图像；

9.一种基于视网膜眼底图像的目标检测定位设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至7中任意一项所述的方法。

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。