CN112966620A

CN112966620A - 眼底图像处理方法、模型训练方法及设备

Info

Publication number: CN112966620A
Application number: CN202110274270.1A
Authority: CN
Inventors: 熊健皓; 赵昕; 和超; 张大磊
Original assignee: Shanghai Eaglevision Medical Technology Co Ltd; Beijing Airdoc Technology Co Ltd
Current assignee: Shanghai Eaglevision Medical Technology Co Ltd; Beijing Airdoc Technology Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-15

Abstract

本发明提供一种眼底图像处理方法、模型训练方法及设备，所述眼底图像处理方法，包括：对多通道眼底图像提取单通道眼底图像；确定所述单通道眼底图像中的最大像素值和最小像素值；利用所述最大像素值和所述最小像素值对所述单通道眼底图像中的像素值进行处理；将处理后的所述单通道眼底图像合成为多通道眼底图像。

Description

眼底图像处理方法、模型训练方法及设备

技术领域

本发明涉及图像处理领域，具体涉及一种眼底图像处理方法、模型训练方法及设备。

背景技术

近年来，基于深度学习技术，智能影像识别在一些具体医学问题上达到了人类专家的识别水平，但学习到的模型在未知域(与模型训练数据不同来源的数据源)的测试性能容易大幅下降。未知域的数据可以来自于不同于模型训练集的采集设备或不同的采集人群等，医疗图像场景中常见的未知域是不同的人群、不同的采集设备等。这种性能的下降是因为训练数据学习到的评估模式在未见域图片上不完全适用，如何提升模型在此未知数据上的性能被定义为域泛化。

在具体的医学图像分析应用场景中，这个问题主要源自于以下限制：获取大量医院不同类型设备的数据难以实现，模型的训练数据通常采集自少数医疗机构的特定型号仪器。但实际应用中需要模型大范围的适配多种型号的数据采集设备。

眼底图像域泛化问题的主要来源之一是不同眼底图像采集相机的差异，比如传感器种类、透镜、焦距、光源距离等差异。设计眼底相机需要成像系统以及照明系统之间的良好平衡与结合，不同的相机设计会造成诸如照度均匀性、照度比、光谱敏感度等差异。此外，眼底图像的质量和清晰度也和眼底相机的设计高度相关。这些都会对眼底相关疾病的诊断产生重要影响，比如DR的诊断。图1以眼底图像为例，给出了同一被拍摄者在三个不同相机上的图像示例(从左至右分别为佳能、明达、拓普康)，而不同的相机的拍摄的图片可以被考虑为不同的域。不同相机的图像可以对相同的拍摄对象拍出差异化很大的医疗图像，这种差异会对模型性能带来很大影响。

数据增强是目前一种广泛使用的可以有效增加泛化性能的方法。数据增强方法主要的手段是改变图像的外观、质量以及布局，比如翻转、旋转、缩放、裁剪、弹性形变、加入高斯噪声等。具体可以通过使用生成对抗网络(GAN)生成新样本的数据增强方法来实现。

使用GAN进行数据增强可以应对未知分布数据带来的域适应问题，但这种方法显著的缺点是GAN模型的训练过程繁琐复杂，并且和推断预测过程一样都对计算资源有很高需求。此外，另一项限制是生成式方法通常需要一定数量的未知分布数据介入模型的训练过程。

发明内容

有鉴于此，本发明提供一种眼底图像处理方法，包括：

对多通道眼底图像提取单通道眼底图像；

确定所述单通道眼底图像中的最大像素值和最小像素值；

利用所述最大像素值和所述最小像素值对所述单通道眼底图像中的像素值进行处理；

将处理后的所述单通道眼底图像合成为多通道眼底图像。

可选地，利用所述最大像素值和所述最小像素值对所述单通道眼底图像中的像素值进行处理具体包括：

确定所述单通道眼底图像的平均像素值和所述多通道眼底图像的标准差；

利用所述平均像素值、所述标准差、所述最大像素值和所述最小像素值对所述单通道眼底图像中的像素值进行计算。

可选地，利用所述平均像素值、所述标准差、所述最大像素值和所述最小像素值对所述单通道眼底图像中的像素值进行计算具体包括：

将所述平均像素值、所述标准差、所述最大像素值作为设定函数的输入进行计算，得到针对所述最大像素值的计算结果；将所述平均像素值、所述标准差、所述最小像素值作为所述设定函数的输入进行计算，得到针对所述最小像素值的计算结果；将所述平均像素值、所述标准差、所述单通道眼底图像的像素值作为所述设定函数的输入进行计算，得到针对所述单通道眼底图像像素的计算结果；

利用所述计算结果得到处理后的像素值。

可选地，利用如下方式得到处理后的像素值：

其中g_i表示处理后的像素值，ψ(f_i)表示针对所述单通道眼底图像像素的计算结果，

表示针对所述最小像素值的计算结果，

表示针对所述最大像素值的计算结果。

可选地，所述设定函数为

其中

表示所述平均像素值，f_i表示所述最大像素值或者所述最小像素值或者所述单通道眼底图像的像素值，σ表示所述标准差。

可选地，利用如下方式计算所述标准差：

其中σ表示所述标准差，H和W分别表示图像长度和宽度，

表示所述多通道眼底图像的平均像素值，f_i(j,k)表示所述单通道眼底图像中的像素点(j,k)的像素值。

可选地，利用如下方式计算所述平均像素值：

其中

表示所述平均像素值，H和W分别表示图像长度和宽度，f_i(j,k)表示所述单通道眼底图像中的像素点(j,k)的像素值。

本发明还提供一种眼底图像识别模型训练方法，包括：

利用上述眼底图像处理方法对眼底相机所拍摄的眼底图像进行处理；

利用处理后的眼底图像及标签数据对神经网络模型进行训练。

本发明还提供一种眼底图像识别方法，包括：

利用眼底图像识别模型对处理后的眼底图像进行识别得到识别结果。

相应地，本发明提供一种眼底图像处理设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述眼底图像处理方法。

相应地，本发明提供一种眼底图像识别模型训练设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述眼底图像识别模型训练方法。

相应地，本发明提供一种眼底图像识别设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述眼底图像识别方法。

本发明提供的眼底图像处理方法及设备可以应对模型开发中数据来源单一(或来源有限)的泛化性提升需求，即在不能大量采集不同相机的数据和对于标签的情况下提升模型应用范围和一致性。

基于此处理方法的模型训练方法及眼底图像识别方法和设备可以显著提升模型在不同眼底相机图像上的识别准确性，具体的识别任务比如可以是年龄预测、DR分类和图像分割等，本方案可以减少模型在不同眼底相机拍摄的图片中预测的偏差，提高人工智能模型在临床应用中的适用范围。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为三个不同相机所拍摄的同一被拍摄者的眼底图像；

图2为本发明实施例中的眼底图像处理方法的流程图；

图3为原始眼底图像及处理后合成的眼底图像。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供一种眼底图像处理方法，该方法可以由计算机或服务器等电子设备执行，如图2所示该方法包括如下步骤：

S1，对多通道眼底图像提取单通道眼底图像。眼底相机拍摄的多通道眼底图像一般为BGR/RBG三通道眼底图像，图像大小可表示为H×W×3，其中H和W分别为图像的高和宽，通道数为3。由此可以提取到三个尺寸为H×W的单通道眼底图像。f_i表示尺寸为H×W三通道的第i通道的单一图像，i∈{1,2,3}。

S2，确定单通道眼底图像中的最大像素值和最小像素值。在各个单通道图像中分别确定像素值最高的像素点和像素值最低的像素点，

和

分别表示单通道图像f_i的最大像素值和最小像素值。

S3，利用最大像素值和最小像素值对单通道眼底图像中的像素值进行处理。具体可以是设定一个或多个函数，以最大像素值、最小像素值和单通道眼底图像中的像素点的像素值作为设定函数的输入，来计算处理后的像素值，从而得到处理后的单通道眼底图像。

作为举例，可采用如下方式进行处理：

其中g_i表示处理后的像素值(计算结果)，f_i表示单通道眼底图像中的像素点的像素值，

表示该单通道图像的最小像素值，

表示该单通道图像的最大像素值，ψ(·)表示设定函数。设定函数可以根据实验数据进行设置，在本实施例中所采用的是一个变形的sigmoid函数。

S4，将处理后的单通道眼底图像合成为多通道眼底图像，即分别对三个通道进行处理后得到新的三通道图像g，之后可以将g做为深度学习模型输入的训练图片。

图3示出了两组原始眼底图像及处理后合成的眼底图像，其中左侧是眼底相机拍摄的原始眼底图像、右侧是经过上述方法处理合成的眼底图像。使用所述方法处理各种眼底相机所拍摄的图像以后，图片像素值将被归一化到相对统一的数值分布上。上述处理方法特别适用于处理模型的训练数据和测试数据，原因在于机器学习的一个根本假设是测试数据和训练数据同分布，在这个假设的情况下模型的收敛才可能达到最佳。不同相机拍摄的眼底图像的像素值分布通常不符合上述假设，而通过以上的处理方案可以强行将图片归一化到一个统一分布上来，由此提高模型训练效率及性能。

下面针对上述步骤S3介绍一种优选的处理方式。在本实施例中，除了上述最大像素值和最小像素值以外，还用到单通道图像的平均像素值、多通道图像的平均像素值和标准差。综合这些数据对各个单通道图像进行处理，步骤S3具体包括：

S31，确定单通道眼底图像的平均像素值和多通道眼底图像的标准差。

关于单通道眼底图像的平均像素值有多种可选的计算方式，在本实施例中具体采用如下方式进行计算：

其中

表示单通道眼底图像的平均像素值，H和W分别表示图像长度和宽度，f_i(j,k)表示单通道眼底图像中的像素点(j,k)的像素值,在本实施例中图像尺寸为299×299×3，H和W分别取299。

关于标准差有多种可选的计算方式，在本实施例中具体采用如下方式进行计算：

其中σ表示标准差，H和W分别表示图像长度和宽度，

表示多通道眼底图像的平均像素值(可以将各个单通道眼底图像的平均像素值

相加取平均)，f_i(j,k)表示单通道眼底图像中的像素点(j,k)的像素值,H和W分别取299。

S32，利用平均像素值、标准差、最大像素值和最小像素值对单通道眼底图像中的像素值进行计算。具体地，本实施例使用一个设定函数ψ(·)，将平均像素值、标准差、最大像素值作为设定函数的输入进行计算，得到针对最大像素值的计算结果

将平均像素值、标准差、最小像素值作为设定函数的输入进行计算，得到针对最小像素值的计算结果

将平均像素值、标准差、单通道眼底图像的像素值作为设定函数的输入进行计算，得到针对单通道眼底图像像素的计算结果ψ(f_i)。利用ψ(f_i)、

得到处理后的像素值g_i。

在一个优选的实施例中，设定函数为

其中

表示单通道眼底图像的平均像素值，f_i表示单通道眼底图像的像素值(在计算

时将f_i替换成

在计算

时将f_i替换成

)，σ表示标准差。

上述眼底图像处理方法可以应用于处理神经网络模型的训练数据，本发明实施例提供一种眼底图像识别模型训练方法，该方法可以由计算机或服务器等电子设备执行。

首先利用上述眼底图像处理方法对眼底相机所拍摄的眼底图像进行处理。在本实施例中，作为训练数据的眼底图像采集自某一型号的相机(佳能)，为了验证和测试模型训练成果，还准备了一些采集自不同相机(拓普康，明达)、拍摄的不同年龄段人群的眼底图像作为未知域的图像，每一个相机的图像具有显著的风格差异(如图1所示)。

训练数据的情况如下表所示：

利用处理后的眼底图像及标签数据对神经网络模型进行训练。通过上述处理方法对训练数据进行处理，再作为模型的输入。本实施例将Inception-V3做为主干模型，该模型有两个独立的分支，第一个分支用于根据眼底图像输出年龄信息(年龄回归预测)，第二个分支用于根据眼底图像输出糖尿病视网膜病变(Diabetic Retinopathy，DR)类别(DR预测)，两个分支在训练过程中同时进行训练。

模型输入的眼底图像大小均为299×299×3。对训练数据使用随机剪裁(randomcrop)、±15°随机旋转角度(random rotation)和随机水平翻转(random horizontalflip)进行数据增强。年龄预测使用平均绝对误差(Mean absolute error)为损失函数，DR预测使用二分类交叉熵为损失函数。

关于标签数据，实验中使用的所有眼底图片均由职业眼科医师进行标注。年龄标签即为被拍者的实际年龄值，由患者填写的生日信息计算得到；关于DR标签，标注准则遵循《我国糖尿病视网膜病变临床诊疗指南(2014)》，无DR和非增殖期糖尿病视网膜病变(Nonproliferative Diabetic Retinopathy，NPDR)的I期(轻度)的图片被标注成阴性；NPDR II期(中度)、NPDR III期(重度)和增殖期糖尿病视网膜病变(ProliferativeDiabetic Retinopathy，PDR)则标注成阳性。

实验使用特征曲线(ROC曲线)及曲线下面积(AUC)评估DR分类的诊断效能，使用R2(决定系数)和MAE(mean absolute error,平均绝对误差)来评估年龄预测的误差。

为了对比性能表现，两个经典的归一化方法被作为对比，其中一个方法是适应性局部对比度增强(Adaptive Local Contrast Enhancement，ALCE)，另一个是对比拉伸(Contrast Stretching，CS)。即采用这两种现有的方法对眼底图像进行处理，并使用处理后的图像作为训练数据训练神经网络模型，与本发明提供的方案进行比对。为了便于描述，在对比例中将本发明提供的眼底图像处理方法称为单通道标准差归一化(Single ChannelStandard Deviation Normalization,SCSDN)。

测试数据集情况如下表所示：

性能对比结果如下表所示：

相比内部验证的指标，所有方法在外部验证上均出现了显著的性能损失。年龄预测的指标中ALCE的性能损失最大，MAE从2.909岁的平均误差提升到5.031最(最大降幅2.122岁)。SCSDN在内部验证和外部验证集中均是性能最佳，最大降幅为0.693岁。在DR分类的任务上，基于SCSDN，ALCE和CS方法的三个模型表现均有所下降，而SCSDN相对其他两个方法降幅最小。

年龄预测的结果中，SCSDN性能最佳。在SCSDN的年龄测试在内部验证集中MAE为2.538，R²为0.928，两项指标均为最佳。在两个外部验证集中，SCSDN均优大幅高于CS和ALCE的测试性能，尤其在外部验证集A上，SCSDN的R2达到0.853，大幅高于CS和ALCE的0.664和0.632。此外CS和ALCE在外部测试上的表现均有较大差异，

DR分类的结果中SCSDN性能也优于CS和ALCE。SCSDN在内部测试和外部测试均AUC值均是最高，分别是0.979和0.939，且该数值具备统计学意义。在DR的测试上CS的测试结果较ALCE更好。ALCE在基于明达相机拍摄的图片上性能最差，AUC仅有0.875。对比内部测试和外部测试的表现上，SCSDN的AUC从0.979下降到0.938，下降幅度为0.041，为三个方法中降幅最小。

深度学习模型在未见相机图片上的性能损失是普遍现象，本实施例使用的三种方法中均观察到了因为测试相机和人群改变到来的性能损失，这符合现有文献中对模型在未见域的泛化问题的各种假设。这说明在现实的医疗场景中，深度学习模型在未见机型上的图片测试必然导致在性能上的额外损失，性能损失的幅度会因相机类型而有所差异。SCSDN方法可以应对模型开发中数据来源单一(或来源有限)的泛化性提升需求，即在不能大量采集不同相机的数据和对于标签的情况下提升模型应用范围和一致性。

以上结果说明使用SCSDN可以大幅度提升模型的在不同相机的预测一致性。无论是在佳能，还是明达相机或者是拓普康相机拍摄的图片上，SCSDN模型的泛化性能高度一致，年龄预测的R2稳定在0.903到0.853之间。在DR分类的测试中，SCSDN方法也表现了良好的适用性能。使用该方法训练得到的模型在佳能和明达的图片上均取得了最优的测试效果。无论在年龄预测还是在DR预测中，CS和ALCE方法均存在外部验证集下的性能大幅下降，或者整体性能不佳。这些均说明CS和ALCE这些现有的归一化方法在不同的相机图片上会受到较大影响。

在外部测试的结果中，CS在明达相机图片上较好，ALCE在拓普康上的表现较好，说明这些归一化方法有明显的机型倾向性。这样的倾向性不利于人工智能技术大规模的应用。因为在实际的医疗场景中常常存在多样的机型，而在不同的机型上如果存在显著的性能差异则会直接导致大量现成的医疗影像拍摄仪器(如眼底相机)不能被使用，或者需要采购模型指定的机器类型，这会带来巨大的支出和资源浪费。

SCSDN相较于其他的方法而言优势在于不需要获取额外机型的眼底图就可以改善模型性能，只需要训练和使用的预处理中加入SCSDN即可，所以对数据的需求量更少、应用范围更广。

使用经过上述训练方案得到的模型识别眼底图像时，同样需要先利用上述眼底图像处理方法对待识别的眼底图像进行处理，然后利用模型对处理后合成的眼底图像进行识别，所述识别包括对疾病进行分类、预测人体参数、对感兴趣目标进行分割等等，这种识别方案具有更高的准确性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种眼底图像处理方法，其特征在于，包括：

对多通道眼底图像提取单通道眼底图像；

确定所述单通道眼底图像中的最大像素值和最小像素值；

将处理后的所述单通道眼底图像合成为多通道眼底图像。

2.根据权利要求1所述的方法，其特征在于，利用所述最大像素值和所述最小像素值对所述单通道眼底图像中的像素值进行处理具体包括：

3.根据权利要求2所述的方法，其特征在于，利用所述平均像素值、所述标准差、所述最大像素值和所述最小像素值对所述单通道眼底图像中的像素值进行计算具体包括：

利用所述计算结果得到处理后的像素值。

4.根据权利要求3所述的方法，其特征在于，利用如下方式得到处理后的像素值：

其中g_i表示处理后的像素值，ψ(f_i)表示针对所述单通道眼底图像像素的计算结果，ψ(f_imin)表示针对所述最小像素值的计算结果，ψ(f_imax)表示针对所述最大像素值的计算结果。

5.根据权利要求3或4所述的方法，其特征在于，所述设定函数为

其中

6.根据权利要求2-5中任一项所述的方法，其特征在于，利用如下方式计算所述标准差：

其中σ表示所述标准差，H和W分别表示图像长度和宽度，

7.根据权利要求2-5中任一项所述的方法，其特征在于，利用如下方式计算所述平均像素值：

其中

8.一种眼底图像识别模型训练方法，其特征在于，包括：

利用权利要求1-7中任一项所述的眼底图像处理方法对眼底相机所拍摄的眼底图像进行处理；

9.一种眼底图像识别方法，其特征在于，包括：

10.一种眼底图像处理设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7中任意一项所述的眼底图像处理方法。

11.一种眼底图像识别模型训练设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求8所述的眼底图像识别模型训练方法。

12.一种眼底图像识别设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求9所述的眼底图像识别方法。