CN110263755A

CN110263755A - 眼底图像识别模型训练方法、眼底图像识别方法和设备

Info

Publication number: CN110263755A
Application number: CN201910578335.4A
Authority: CN
Inventors: 和宗尧; 熊健皓; 赵昕; 和超; 张大磊
Original assignee: Shanghai Eaglevision Medical Technology Co Ltd
Current assignee: Shanghai Eaglevision Medical Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-09-20
Anticipated expiration: 2039-06-28
Also published as: CN110263755B; WO2020258981A1; US20220358791A1; EP3992844A1; EP3992844A4; US11893831B2

Abstract

本发明提供一种眼底图像识别模型训练方法、眼底图像识别方法和设备，其中所述眼底图像识别模型训练方法包括：获取训练数据，所述训练数据包括第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本，其中，第二眼底图像样本与所述第一眼底图像样本为同眼眼底图像；所述第三眼底图像样本与所述第一眼底图像样本为不同眼眼底图像；利用眼底图像识别模型对所述第一眼底图像样本、第二眼底图像样本和所述第三眼底图像样本进行识别得到损失值；根据所述损失值调整所述眼底图像识别模型的参数。

Description

眼底图像识别模型训练方法、眼底图像识别方法和设备

技术领域

本发明涉及医疗图像识别技术领域，具体涉及一种眼底图像识别模型训练方法、眼底图像识别方法和设备。

背景技术

现在的眼底疾病通常通过特殊的拍照设备拍摄眼底图像，医生可以通过观察眼底图像来判断被检查者是否可能患有某种眼底疾病，从而做出是否需要进一步检查或就诊的建议。

眼底疾病的病情可能会不断发展，在后续患者的复诊过程中，医生需要对比前几次的眼底图像来进行病情跟踪，以便给出更好的治疗建议，这样就需要在很多的眼底图像中挑选出来自同一眼睛的眼底图像，虽然，具备多年经验的医生能够依据自己的经验挑选出属于同一眼睛的眼底图像，但是因为眼底拍摄过程中具备很多不确定性的影响因素，比如图像的明暗、图像旋转、平移等。这些会使得对眼底图像的身份识别有很大难度，容易导致医生难以准确的分辨出来自同一只眼睛眼底图像，从而难以准确的实现眼底病情跟踪。

发明内容

有鉴于此，本发明提供一种眼底图像识别模型训练方法，包括：

获取训练数据。所述训练数据包括第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本，其中，第二眼底图像样本与所述第一眼底图像样本为同眼眼底图像；所述第三眼底图像样本与所述第一眼底图像样本为不同眼眼底图像；利用眼底图像识别模型对所述第一眼底图像样本、第二眼底图像样本和所述第三眼底图像样本进行识别得到损失值；根据所述损失值调整所述眼底图像识别模型的参数。

可选地，所述训练数据包括n只眼睛的眼底图像，其中每只眼睛对应m张眼底图像；其中，n和m为大于1的整数。

可选地，所述将所述第一眼底图像样本、第二眼底图像样本和所述第三眼底图像样本输入眼底图像识别模型得到损失值包括：计算所述第二眼底图像样本与所述第一眼底图像样本的第一距离；计算所述第三眼底图像样本与所述第一眼底图像样本的第二距离；根据所述第一距离和所述第二距离得到所述损失值。

可选地，所述利用所述损失值调整所述眼底图像识别模型的参数包括：将所述损失值反馈至所述眼底图像识别模型；根据所述损失值调整所述参数以减小所述第一距离增大所述第二距离直至所述第一距离比所述第二距离小预设值。

可选地，所述第一距离和所述第二距离包括欧式距离。

可选地，在所述在训练数据中获取第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本之前包括：对所述训练数据进行剪裁。

可选地，在所述在训练数据中获取第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本之前还包括：对所述训练数据进行数据增强。

根据第二方面，本发明实施例提供了一种眼底图像识别方法，包括：获取至少两张待识别眼底图像；利用上述第一方面任意一项所述的眼底图像识别模型训练方法得到的眼底图像识别模型对所述至少两张待识别眼底图像进行识别，以获得所述待识别眼底图像之间的相似度；根据所述相似度识别所述待识别眼底图像是否属于同一只眼的识别结果。

可选地，所述根据所述相似度识别所述待识别眼底图像是否属于同一只眼睛包括：判断所述相似度是否大于预设阈值，所述预设阈值为所述待识别眼底图像之间的距离阈值；当所述相似度大于所述预设阈值时，确认所述待识别眼底图像属于同一只眼睛；当所述相似度小于所述预设阈值时，确认所述待识别眼底图像属于不同眼睛。

根据第三方面，本发明实施例提供了一种眼底图像识别设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述第一方面中任意一项所述的眼底图像识别模型训练方法和/或如权利要求上述第二方面所述的眼底图像识别方法。

在多个眼底图像的训练样本中任意选择一张眼底图像作为第一眼底图像样本即作为参考样本，选择与参考样本来自同一眼睛的第二眼底图像作为正样本，第二眼底图像样本与第一眼底图像样本具有拍摄过程中差异性，选择与参考样本来自不同眼睛的第三眼底图像作为负样本，利用眼底图像识别模型对三个样本进行识别计算损失值，并根据损失值反向传播调整身份识别模型参数，以优化眼底图像识别模型，在对模型训练过程中，充分考虑眼底拍摄过程中具备很多不确定性的影响因素，并通过不同眼睛的眼底图像进行对比训练，可以避免由于眼底拍摄过程中具备不确定性的影响因素，比如图像的明暗、图像旋转、平移等眼底图像呈现的差异性，导致的眼底图像身份识别困难，可以较为准确的分辨出来自同一只眼睛的图像，为眼疾患者病情跟踪提供可靠的依据。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的一种眼底图像识别模型训练方法的流程图；

图2为本发明实施例中的眼底图像；

图3为图2所示眼底图像中的一个图像块；

图4为分割模型针对图3所示图像块的分割结果；

图5为针对图2所示图像进行分割并拼接得到的眼底血管图像；

图6为本发明实施例中的眼底图像识别方法的流程图；

图7为本发明实施例中的眼底图像识别模型训练装置的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明提供一种眼底图像识别模型训练方法，可以用于训练用于进行眼底图像识别的神经网络模型，该方法可以由计算机和服务器等电子设备执行。如图1所示该方法包括如下步骤：

S11.获取训练数据，训练数据包括第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本。训练数据均被标记了属于哪只眼睛。具体的，可以通过眼底的特征进行标记，例如可以通过血管和视盘位等较为明显的特征进行标记。在一个具体的实施例中，同一眼睛的可以具有多张眼底图像，具体的每张眼底图像的角度、亮度等可以不同。

在本实施例中，第二眼底图像样本与第一眼底图像样本为同眼眼底图像；第三眼底图像样本与第一眼底图像样本为不同眼眼底图像。在具体的实施例中，训练数据可以包括多个眼睛的眼底图像，其中每只眼睛的眼底图像数量为多张，其中，第一眼底图像样本可以为在多只眼睛的多张眼底图像中随机抽取，第一眼底图像样本可以作为标准样本；第二眼底图像样本为在多只眼睛的多张眼底图像选取与第一眼底图像样本来自同一眼睛的不同的眼底图像，第二眼底图像样本可以作为正样本，即与标准样本为同一眼睛的不同眼底图像；第三眼底图像样本可以为在多只眼睛的多张眼底图像中选取与第一眼底图像样本来自不同眼睛的眼底图像。第三眼底图像样本可以为负样本，即与标准样本为不同眼睛的眼底图像。

各个训练数据均为眼底图像，在利用训练数据对眼底图像识别模型训练之前可以先对眼底图像进行预处理，以使得训练的眼底图像识别模型在进行眼底图像识别时更为精确。具体的，可以先对每个眼底图像进行剪裁处理，由于拍摄的眼底图像原图具有较多的黑色背景，可以先对眼底图像进行裁边处理。移除背景中大片的黑色像素，眼底图像均被裁剪到最小的能够包含整个圆形眼底的矩形。在一个具体的本实施例中，所有眼底图像可以均裁剪为统一格式，例如，尺寸被统一到224*224像素，模型训练和识别时输入的图片格式可以采用统一的224*224像素和RGB三个颜色通道的眼底图像。

为了提高眼底图像识别模型的鲁棒性，对训练数据进行预处理还可以包括对训练数据进行数据增强。数据增强过程可以使用旋转，平移，放大和主成分变换(PCA)颜色增强，通过数据增强每个眼底图像可以生成多张使用随机增强参数的眼底图像。在本实施例中，通过数据增强后的眼底图像的格式可以采用统一的224*224像素和RGB三个颜色通道的眼底图像例如可以先对眼底图像进行裁剪，在对裁剪后的眼底图像进行数据增强，也可以先对眼底图像进行数据增强，再对进过数据增强后的眼底图像进行裁剪，对于两种数据预处理的顺序不做限定。

作为具体举例，训练数据可以为n只眼睛的眼底图像，其中每只眼睛对应m张眼底图片，其中n和m为大于1的整数。具体的，n的数值越大，模型训练后的识别精度越精准。经过发明人反复研究，其中m在大于或等于8时，训练后的模型的识别精度明显提升，因此在本实施例中m的取值可以大于或等于8。

S12.利用眼底图像识别模型对第一眼底图像样本、第二眼底图像样本和第三眼底图像样本进行识别得到损失值。眼底图像识别模型可以为任意的神经网络模型。将第一眼底图像样本、第二眼底图像样本和第三眼底图像样本组成一训练数据组，输入至眼底图像识别模型中，利用预设的损失函进行损失值计算，在一个具体的实施例中，可以计算第二眼底图像样本与第一眼底图像样本的第一距离；计算第三眼底图像样本与第一眼底图像样本的第二距离；根据第一距离和第二距离得到损失值。

具体的，可以采用triplet损失函数计算损失值，例如在多只眼睛的眼底图像中随机选取的第一眼底图像样本可以称为Anchor，选取的与第一眼底图像样本属于同一只眼睛的第二图像样本可以称为Positive，选取的与第一眼底图像样本属于不同眼睛的第二图像样本可以称为Negative，由此构成一个(Anchor，Positive，Negative)三元组。三元组的三个样本最终得到的特征表达分别计为：

在本实施例中，可以计算特征与特征之间的第一距离，计算特征与特征之间的第一距离的第二距离。具体的，第一距离和第二距离可以采用欧式距离进行度量。

利用第一距离和第二距离计算损失值，具体的，可以采用如下损失函数关系式进行计算：

其中，α表示预设值，该预设值为第一距离与第二距离之间的最小间隔。+表示[]内的值大于零的时候，取该值为损失值，[]内的值小于零的时候，损失为零。

S13.根据损失值调整眼底图像识别模型的参数。例如可以利用损失值为基准进行反向传播更新身份识别模型的参数以优化身份识别模型。

具体的，可以将损失值反馈至眼底图像识别模型；根据损失值调整参数以减小第一距离增大第二距离直至第一距离比第二距离小预设值。在一个具体的实施例中，可以采用triplet损失函数在眼底图像识别模型传递损失的过程中，要使得Anchor和positive的距离变小，而Anchor和Negative的距离变大，最终让第一距离和第二距离之间有一个最小的间隔α，由此可以提高眼底图像识别模型的鲁棒性。在本实施例中，采用多组训练数据对模型进行训练，直至损失函数收敛。

在多个眼底图像的训练样本中任意选择一张眼底图像作为第一眼底图像样本即作为参考样本，选择与参考样本来自同一眼睛的第二眼底图像作为正样本，第二眼底图像样本与第一眼底图像样本具有拍摄过程中差异性，选择与参考样本来自不同眼睛的第三眼底图像作为负样本，利用眼底图像识别模型对三个样本进行识别计算损失值，并根据损失值反向传播调整身份识别模型参数，以优化眼底图像识别模型，在对模型训练过程中，充分考虑眼底拍摄过程中具备很多不确定性的影响因素，并通过不同眼睛的眼底图像进行对比训练，可以避免由于眼底拍摄过程中具备很多不确定性的影响因素，比如图像的明暗、图像旋转、平移等眼底图像呈现的差异性，导致的眼底图像身份识别困难，可以较为准确的分辨出来自同一只眼睛的图像，为眼疾患者病情跟踪提供可靠的依据。

为了进一步排除与眼底识别不相关的干扰图像信息，提升眼底图像识别模型的识别能力，作为一种可选的实施方式，在对模型进行训练之前，还可以对眼底图像进行特征提取，将提取特征之后的眼底特征图像作为训练数据。

在一个具体的实施例中，在获取到眼底图像后，可以利用计算机视觉算法或机器学习算法对眼底特征进行提取，在本实施例中可以以通过利用分割神经网络对眼底图像中的眼底特征进行提取为例进行说明，得到包含眼底特征置信度的概率图或二值化图像。如图2所示，可以将眼底图像划分为多个图像块，图像块的尺寸根据眼底图像的尺寸进行设定，对于多数情况，划分的图像块的尺寸应当明显小于整个眼底图像的尺寸。例如眼底图像的尺寸为1000*1000(像素)，所划分出的图像块的尺寸是100*100(像素)。

利用预设的分割模型分别针对各个图像块中的血管影像进行分割得到分割图像块；分割模型具体可以是FCN、SegNet、DeepLab等神经网络，在使用分割模型之前应当使用样本数据对其进行训练使其具备一定的语义分割能力，具体可使用人工标记了血管区域的样本图像块训练得到。

分割模型会提取图像块中血管影像的特征，并根据提取的特征形成分割图像块，在其中凸显出血管影像，具体的凸显方式有多种，例如采用明显不同于背景的各种像素值表达血管所在的位置等等。

将图3所示的图像块输入分割模型，可以得到如图4所示的分割图像块，在这一实施例中所使用的分割模型输出的是二值图像，它采用两种像素值分别表达背景和血管影像，直观地凸显血管位置，并且二值图像更有利于后续对血管影像的测量操作。利用分割图像块拼接出眼底血管图像，例如图5所示的图像。图5清楚地表达了眼底图像中的血管影像和背景。既可以完成血管特征的提取。作为可选的实施例，还可以采用上述方法提取其他特征例如：视盘、黄斑、和视网膜等特征。通过对眼底特征的提取，可以极大的排除与眼底身份识别不相关的干扰图像信息，显著提升模型识别性能。

在一个可选的实施例中，眼底特征图像中也可以存在高级的非直接特征(或称为抽象特征)，例如血管分叉点位置和方向、血管交叉点位置和方向、血管向量图等。在获取原始的眼底图像后，可以从其中提取上述非直接特征作为训练数据。

本发明实施例还提供了一种眼底图像识别方法，如图6所示，该方法可以包括如下步骤：

S21.获取至少两张待识别眼底图像。在一个具体的实施例中，在获取到待识别的眼底图像后，可以将该眼底图像进行数据预处理，例如，可以待识别的眼底图像进行剪裁，移除背景中大片的黑色像素，眼底图像均被裁剪到最小的能够包含整个圆形眼底的矩形。在本实施例中，所有眼底图像可以均裁剪为统一格式，例如，尺寸被统一到224*224像素，和RGB三个颜色通道的眼底图像。

S22.利用眼底图像识别模型对至少两张待识别眼底图像进行识别，以获得待识别眼底图像之间的相似度。眼底图像识别模型可以采用上述实施例中的眼底图像识别模型训练方法训练得到。具体的，该眼底图像识别模型的结构可以采用卷积神经网络。

在眼底图像识别模型训练好后，任意输入两张待识别的眼底图像，该眼底图像识别模型即可以输出两张待识别的眼底图像之间的相似度值，卷积神经网络包括卷积层、池化层、激活函数层和全连接层，每层的各个神经元参数通过训练确定。利用训练好的卷积神经网络，通过网络前向传播，获取卷积神经网络模型的全连接层输出两张待识别的眼底图像之间距离。具体的，该眼底图像识别模型可以将任意输入的两张待识别的眼底图像在高维空间进行区域分割计算两张待识别眼底图像之间的距离。

S23.根据相似度识别待识别眼底图像是否属于同一只眼的识别结果。具体的，两张待识别眼底图像之间的距离越大，表示两张待识别的眼底图像的相似度越大，两张待识别眼底图像之间的距离越小，表示两张待识别的眼底图像的相似度越小。例如可以判断两张待识别眼底图像之间的相似度是否大于阈值，当大于阈值时判定认两张眼底图像来自同一只眼睛，当相似度小于阈值时判定两张眼底图像来自不同眼睛。

在通过训练好的眼底图像识别模型识别待识别眼底图像的相似度，并根据相似度确认是否属于同一只眼睛，由于在对模型进行训练时，采用大量的包含多种状况的训练数据，可以避免由于眼底拍摄过程中具备很多不确定性，比如图像的明暗、图像旋转、平移等眼底图像呈现的差异性，导致的眼底图像身份识别困难，可以较为准确的分辨出来自同一只眼睛的图像，为眼疾患者病情跟踪提供可靠的依据。

本发明实施例还提供了一种眼底图像识别模型训练装置，如图7所示该装置包括：

获取模块31，用于获取训练数据。训练数据包括第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本，其中，第二眼底图像样本与第一眼底图像样本为同眼眼底图像；第三眼底图像样本与第一眼底图像样本为不同眼眼底图像；

损失值计算模块32，用于利用眼底图像识别模型对第一眼底图像样本、第二眼底图像样本和第三眼底图像样本进行识别得到损失值；

参数调整模块33，用于根据损失值调整眼底图像识别模型的参数。

本发明实施例还提供了一种眼底图像识别模型训练设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行上述实施例中的眼底图像识别模型模型训练方法和/或上述实施例中的眼底图像识别方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种眼底图像识别模型训练方法，其特征在于，包括：

获取训练数据，所述训练数据包括第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本，其中，第二眼底图像样本与所述第一眼底图像样本为同眼眼底图像；所述第三眼底图像样本与所述第一眼底图像样本为不同眼眼底图像；

利用眼底图像识别模型对所述第一眼底图像样本、第二眼底图像样本和所述第三眼底图像样本进行识别得到损失值；

根据所述损失值调整所述眼底图像识别模型的参数。

2.如权利要求1所述的眼底图像识别模型训练方法，其特征在于，

所述训练数据包括n只眼睛的眼底图像，其中每只眼睛对应m张眼底图像；

其中，n和m为大于1的整数。

3.如权利要求1所述的眼底图像识别模型训练方法，其特征在于，所述将所述第一眼底图像样本、第二眼底图像样本和所述第三眼底图像样本输入眼底图像识别模型得到损失值包括：

计算所述第二眼底图像样本与所述第一眼底图像样本的第一距离；

计算所述第三眼底图像样本与所述第一眼底图像样本的第二距离；

根据所述第一距离和所述第二距离得到所述损失值。

4.如权利要求3所述的眼底图像识别模型训练方法，其特征在于，所述利用所述损失值调整所述眼底图像识别模型的参数包括：

将所述损失值反馈至所述眼底图像识别模型；

根据所述损失值调整所述参数以减小所述第一距离增大所述第二距离直至所述第一距离比所述第二距离小预设值。

5.如权利要求3或4所述的眼底图像识别模型训练方法，其特征在于，

所述第一距离和所述第二距离包括欧式距离。

6.如权利要求1所述的眼底图像识别模型训练方法，其特征在于，在所述在训练数据中获取第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本之前包括：

对所述训练数据进行剪裁。

7.如权利要求6所述的眼底图像识别模型训练方法，其特征在于，在所述在训练数据中获取第一眼底图像样本、第二眼底图像样本以及第三眼底图像样本之前还包括：

对所述训练数据进行数据增强。

8.一种眼底图像识别方法，其特征在于，包括：

获取至少两张待识别眼底图像；

利用权利要求1-7任意一项所述的眼底图像识别模型训练方法得到的眼底图像识别模型对所述至少两张待识别眼底图像进行识别，以获得所述待识别眼底图像之间的相似度；

根据所述相似度识别所述待识别眼底图像是否属于同一只眼睛。

9.如权利要求8所述的眼底图像识别方法，其特征在于，所述根据所述相似度识别所述待识别眼底图像是否属于同一只眼睛包括：

判断所述相似度是否大于预设阈值，所述预设阈值为所述待识别眼底图像之间的距离阈值；

当所述相似度大于所述预设阈值时，确认所述待识别眼底图像属于同一只眼睛；

当所述相似度小于所述预设阈值时，确认所述待识别眼底图像属于不同眼睛。

10.一种眼底图像识别设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7中任意一项所述的眼底图像识别模型训练方法和/或如权利要求8或9所述的眼底图像识别方法。