CN112365493A

CN112365493A - 用于眼底图像识别模型的训练数据生成方法及设备

Info

Publication number: CN112365493A
Application number: CN202011372347.0A
Authority: CN
Inventors: 郭子扬; 李明; 周喆媛; 熊健皓; 赵昕; 和超; 张大磊
Original assignee: Shanghai Eaglevision Medical Technology Co Ltd
Current assignee: Shanghai Eaglevision Medical Technology Co Ltd; Beijing Airdoc Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-12
Anticipated expiration: 2040-11-30
Also published as: CN112365493B

Abstract

本发明提供一种用于眼底图像识别模型的训练数据生成方法及设备，所述方法包括：获取不同域的第一眼底图像和第二眼底图像；分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理，得到第一频谱数据和第二频谱数据；对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分；利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像；在所述融合眼底图像和所述第二眼底图像中分别选取部分图像组合成混合图像作为训练数据。

Description

用于眼底图像识别模型的训练数据生成方法及设备

技术领域

本发明涉及用于机器学习的数据处理领域，具体涉及一种用于眼底图像识别模型的训练数据生成方法及设备。

背景技术

在计算机视觉领域,目前热门的研究方向主要分为语义分割、目标定位与检测、图像识别等。图像分割则是计算机视觉的重要组成部分，也是原始医学影像和自动化疾病诊断中不可缺少的技术手段。

使用深度学习技术进行图像识别已经成为学术界主流的方法，以眼底图像的血管分割任务为例，目前以U-Net网络为代表的深度学习方法在眼底血管分割任务上表现良好,但其展现出的跨领域适应能力却不尽人意。这一缺陷在工业界应用中尤为明显，具体来说，如果在训练模型的过程中只使用了单一场景或相机采集的眼底图像，训练后的模型在遇到不同场景的眼底图像时表现会大幅下降。

众所周知，诸如眼底图像及其感兴趣目标的人工标注是很难获得的，直接扩充训练数据集的难度极大。现有的训练数据扩充方案(也称为数据增强方案)大多是直接对已有的图像进行修改，包括调整灰度、调整图像角度、图像翻转等等，这种方案都是通过人为设定的参数或方式修改真实的眼底图像，让其接近于预期的状态，即期望修改后的眼底图像风格看起与原有的眼底图像不同，然后将扩充的图像作为训练数据。实际情况是利用这种扩充方案对模型训练后的结果并不理想，因为对图像的修改仍是基于人的经验并且所改变的内容比较固定和简单，模型在面对未曾“见过”的眼底图像时所表现出的准确性仍有待提高。

发明内容

有鉴于此，本发明提供一种用于眼底图像识别模型的训练数据生成方法，包括：

获取不同域的第一眼底图像和第二眼底图像；

分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理，得到第一频谱数据和第二频谱数据；

对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分；

利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像；

在所述融合眼底图像和所述第二眼底图像中分别选取部分图像组合成混合图像作为训练数据。

可选地，所述方法还包括：

获取所述第一眼底图像的第一标注数据和所述第二眼底图像的第二标注数据；

在所述第一标注数据和所述第二标注数据中选取与所述部分图像相应的部分标注数据组合成针对所述混合图像的混合标注数据。

可选地，所述标注数据是针对眼底血管的标注。

可选地，分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理具体包括：

获得所述第一眼底图像和所述第二眼底图像的灰度图像；

去除所述灰度图像中眼底区域以外的背景区域并重整维度得到锐化的灰度图像；

对所述锐化的灰度图像进行傅里叶变换处理，得到第一频谱数据Q^s和第二频谱数据Q^t。

可选地，对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分具体包括：

获取所述第一频谱数据Q^s中的模信号Q^samp和所述第二频谱数据Q^t中的模信号Q^tamp；

利用Q^samp、Q^tamp及权重数据β得到融合模信号Q^new。

可选地，Q^new＝(1-β)*Q^samp+β*Q^tamp，β为掩膜，其中包括一个边长随机的正方形区域。

可选地，利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像具体包括：

获取所述第一频谱数据Q^s中的角信号Q^sphase；

对[Q^new,Q^sphase]进行反向傅立叶变换便得到融合眼底图像。

可选地，在所述融合眼底图像和所述第二眼底图像中选取部分图像组合成混合图像作为训练数据具体包括：

分别将所述融合眼底图像和所述第二眼底图像划分为多个图像块；

在所述融合眼底图像和所述第二眼底图像中均匀且随机地选取所述图像块；

将选取的图像块组合成混合图像。

可选地，通过如下方式将选取的图像块组合成混合图像p_new：

p_new＝λ*p_1i+(1-λ)*p_2j，

其中λ是符合贝塔分布的随机系数，p_1i表示从所述融合眼底图像中选取的若干图像块，p_2j表示从所述第二眼底图像中选取的若干图像块。

本发明还提供一种眼底图像识别模型训练方法，包括：

获取不同域的第一眼底图像、第二眼底图像、根据上述生成方法生成的混合图像，以及相应的标注数据；

利用所述第一眼底图像、第二眼底图像、所述混合图像以及相应的标注数据对神经网络模型进行训练。

相应地，本发明提供一种用于眼底图像识别模型的训练数据生成设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述用于眼底图像识别模型的训练数据生成方法。

相应地，本发明提供一种眼底图像识别模型训练设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述眼底图像识别模型训练法。

根据本发明提供的用于眼底图像识别模型的训练数据生成方法及设备，首先对不同域的眼底图像进行傅里叶变换以提取图像的低频部分，然后进行融合，将融合的低频部分与源域图像的高频部分组合成完整的频谱数据，对其进行反向傅里叶变换可还原出一个融合的眼底图像，此图像保留了源域眼底图像的细节并融入了目标域眼底图像的风格，然后在融合的眼底图像和目标域眼底图像中各取部分图像，得到混合图像，此图像将不同风格、位置的图像组合在一起，其表达的内容均来自真实的眼底图像，使用这种训练数据对神经网络模型进行训练后，模型将在识别源域眼底图像和目标域眼底图像时都表现出更高的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的一种训练数据生成方法的流程图；

图2和图3为本发明实施例中所使用的两张眼底图像；

图4为根据本发明实施例的方法得到的融合眼底图像；

图5为对眼底图像中的血管的标注图像；

图6为根据本发明实施例的方法得到的针对混合图像中的血管的标注；

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供一种用于眼底图像识别模型的训练数据生成方法，该方法可以由计算机或服务器等电子设备执行，如图1所示该方法包括如下步骤：

S1，获取不同域的第一眼底图像和第二眼底图像。本申请所述不同域的眼底图像包括通过不同类型、不同厂商的眼底相机所拍摄的眼底图像，或者是同一眼底相机在不同环境下或者使用不同参数拍摄的眼底图像，或者是不同人的眼底图像，因此应当对本申请所述的域做广义理解。

不同域的眼底图像具有色调不同的特点，比如图2和图3示出了来自两个域的眼底图像。具体地，图2是来自公开数据集的眼底图像、图3是私有数据集中的眼底图像，拍摄图像所使用的眼底相机不同，拍摄对象也不同，尽管是灰度图也可以明确地看出它们的色彩风格不同。

在本实施例中，假设如图3所示的眼底图像数量相对稀少、如图2所示的眼底图像数量较多，为了清楚地说明发明目的，可以将图2称为源域图像(第一眼底图像)，将图3称为目标域图像(第二眼底图像)。当面对这两种数据集时，实际存在的问题是由于两种域的图像数量相差悬殊，如果使用普通方法训练神经网络模型，结果必然是模型对目标域的眼底图像的识别准确性比较差。

S2，分别对第一眼底图像和第二眼底图像进行傅里叶变换处理，得到第一频谱数据和第二频谱数据。傅立叶变换是一种在信号处理中常用的转换方式，通过将时域中的信号分解成若干三角函数之和,由此得到该信号的频谱(在频域中的各信号权重)，本实施例使用二维离散傅立叶变换方式。为了便于描述，将对应于第一眼底图像得到的第一频谱数据记为Q^s，将对应于第二眼底图像得到的第二频谱数据记为Q^t。

S3，对第一频谱数据和第二频谱数据的低频部分进行融合得到低频融合部分。本领域技术人员可以理解，频谱数据中的低频部分对应着图像的整体信息，高频部分对应着图像细节，高频部分对于图像所表达的内容来说更加重要，本方案对图像的低频信号做一些改变,使得源域图像的风格更加接近目标域图像，但不改变图像细节。

具体地，本步骤是提取Q^s中的低频部分和Q^t中的低频部分，将这两个低频部分进行融合得到新的低频部分。

S4，利用低频融合部分和第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像。换言之，是利用上述低频融合部分替换掉Q^s中的低频部分，形成新的频谱数据Q^new，然后进行反向傅立叶变换即可还原出眼底图像。图4示出了一个融合眼底图像，可以看出该图像保留了图2所示源域图像中的视盘、血管等细节，而整体(尤其是色彩风格)更接近于图3所示的目标域图像。实际上，这种眼底图像已经可以直接用于训练神经网络模型，面对目标域眼底图像数量相对稀少的情况，通过上述步骤即可得到更多接近于目标域的眼底图像。

S5，在融合眼底图像和第二眼底图像中分别选取部分图像组合成混合图像作为训练数据。结合图3和图4，此步骤是指在图3中选取一部分图像，比如某半部分、四分之一部分、百分之几或者更少的部分，在图4中选取一部分图像，同样地也可以是某半部分、四分之一部分、百分之几或者更少。需要说明的是，所选取的部分组合后可以但不是必须组成一张完整的眼底图像，甚至是完全错乱也是可行的。虽然融合眼底图像与真实的眼底图像相去甚远,但模型通过这种方式可以在训练数据之间得到线性插值，这种错位混合方式反而能够帮助模型更好地融合不同位置的图像信息。

根据本发明实施例提供的训练数据生成方法，首先对不同域的眼底图像进行傅里叶变换以提取图像的低频部分，然后进行融合，将融合的低频部分与源域图像的高频部分组合成完整的频谱数据，对其进行反向傅里叶变换可还原出一个融合的眼底图像，此图像保留了源域眼底图像的细节并融入了目标域眼底图像的风格，然后在融合的眼底图像和目标域眼底图像中各取部分图像，得到混合图像，此图像将不同风格、位置的图像组合在一起，其表达的内容均来自真实的眼底图像，使用这种训练数据对神经网络模型进行训练后，模型将在识别源域眼底图像和目标域眼底图像时都表现出更高的准确性。

进一步地，训练神经网络模型时还需要标签数据，比如在训练分割模型时需要图像标注。在一个具体的实施例中，所生成的训练数据用于训练神经网络模型对眼底图像中的血管进行分割，因此还需要获得与上述融合眼底图像相应的针对血管的标注数据。

标注数据一般是由人工完成的，比如人工可以对图2和图3所示的眼底图像中的血管进行标注，由此可以获取相应的第一标注数据和第二标注数据。图5示出了一个标注图像，能够清晰的区分背景与眼底中的血管。但是人工对上述融合眼底图的标注存在一定难度，因为融合眼底图可能是完全错乱的，所选取的部分可能非常小，比如可以是原图像的几千分之一，标注人员难以理解融合眼底图像的内容也就无法准确地进行标注。

为了解决标注困难的问题，本实施例基于第一眼底图像的第一标注数据和第二眼底图像的第二标注数据自动生成融合眼底图像的标注数据，为此需要在第一标注数据和第二标注数据中选取与部分图像相应的部分标注数据组合成针对混合图像的混合标注数据。标注数据可以被视为一个掩模图像，其尺寸与眼底图像是一致的，在步骤S5中选取了哪部分图像，则相应地在掩码图像中选取部分掩模，然后将选取的部分掩模按照与组合眼底图像同样的方式进行组合，即可得到混合标注数据。

需要说明的是，本发明提供的方案不限于生成血管分割的训练数据，对于视盘分割、黄斑分割等等其他感兴趣目标的分割任务也是可行的，只是获取的标注数据不同，标注数据可以是针对视盘的标注和针对黄斑等感兴趣目标的标注。

在一个优选的实施例中，采用如下方式对眼底图像进行傅里叶变换，步骤S2具体包括：

S21，获得第一眼底图像和第二眼底图像的灰度图像。具体地，首先将眼底图像的红绿蓝三个通道进行加权平均得到灰度图，所使用的权重分别为0.25、0.75、0。

S22，去除灰度图像中眼底区域以外的背景区域并重整维度得到锐化的灰度图像。将灰度图中黑边切除并重整维度(即调整图像尺寸)，经历过这一系列操作后可得到源域、目标域的锐化图像。

S23，对所述锐化的灰度图像进行傅里叶变换处理，得到第一频谱数据Q^s和第二频谱数据Q^t。频谱数据具体可表示为Q(m,n),代表的是原信号在

这个频率上的权重,由于Q(m,n)是一个复数,因此可以通过极坐标表示形式将Q分为Q^amp(模)与Q^phase(角)两层信号。当m,n很小时,该频率的周期很长,也就意味着其在图像中没有经历很多改变,进而导致其对于图像性质影响甚微；而相反地,当m,n很大时,该频率便能在图像中创造出复杂的边界。

在本实施例中，通过傅立叶变换得到源域、目标域锐化后的眼底图像的频谱,分别用Q^samp,Q^sphase,Q^tamp,Q^tphase表示它们的膜与角，步骤S3具体包括：

S31，获取第一频谱数据Q^s中的模信号Q^samp和第二频谱数据Q^t中的模信号Q^tamp；

S32，利用Q^samp、Q^tamp及权重数据β得到融合模信号Q^new。更具体地，Q^new＝(1-β)*Q^samp+β*Q^tamp，在本实施例中β为掩膜，其中包括一个边长随机的正方形区域。β是一个维度与锐化的眼底图像相同的掩膜,其中心正方形区域的值为1,其余部分为0，该正方形的边长尺寸为随机生成。

进一步地，步骤S4具体包括：

S41，获取第一频谱数据Q^s中的角信号Q^sphase；

S42，对[Q^new,Q^sphase]进行反向傅立叶变换便得到融合眼底图像。

通过对[Q^new,Q^sphase]进行反向傅立叶变换得到的锐化眼底图像在保留了源域锐化图像血管信息的情况下在灰度上更加趋近于目标域锐化图像.

下面结合图6介绍一种优选的组合混合图像和标注数据的方式，上述步骤S5具体包括：

S51，分别将融合眼底图像和第二眼底图像划分为多个图像块。在本实施例中，将图3和图4所示的眼底图像划分更小的正方形图块,用P¹,P²表示融合眼底图像和第二眼底图像,

分别表示来自这两张图像的、根据特定顺序排列(如从左至右、从上至下)的图块(其中m远大于1000)。

S52，在融合眼底图像和第二眼底图像中均匀且随机地选取所述图像块。可称之为错位线性混合选取，分别均匀随机选取i,j∈{1,2,…,m},即从P¹中随机选取图块、从P²中随机选取图块，并且所选取的图块数量相近或相等。

S53，将选取的图像块组合成混合图像。类似地，只要在第一标注数据(将其视作融合眼底图像的标注数据)和第二标注数据中选取相应的图块标注，即可组合成与混合图像的混合标注数据，图6示出了一个混合标注数据，通过图6可以明显地看出图块中包括模糊的背景血管及清晰的前景血管。

由于是随机且均匀地从两个图像中选取图块组合成图像，各个图块中分别包括血管，但整体内容是混乱的。图6所示的是16个图块,按照4×4的方式排列，这只是为了说明原理而提供的实施例，实际应用时可以选取更多的图像块组成尺寸更大的混合图像。本方案不必限定混合图像的尺寸，比如实际眼底图像被划分成了1000个图像块，而混合图像只是几十个图像块或者大于一千个图像块都是可行的。

通过上述优选方案组合图像，将每张眼底图图像划分更小的图块，由此可以得到千倍于当前的训练数据，并且基于随机性和均匀性，所生成的各个混合图像完全不同，可以作为一种十分有效的扩充训练数据的方案。

更进一步地，在步骤S53中通过如下方式将选取的图像块组合成混合图像p_new：

p_new＝λ*p_1i+(1-λ)*p_2j，

其中λ是符合贝塔分布的随机系数，在本实施例中λ～Beta(0.3,0.3)，p_1i表示从融合眼底图像中选取的若干图像块，p_2j表示从第二眼底图像中选取的若干图像块。

根据上述各个实施例生成混合图像后即可用于训练眼底图像识别模型，本发明实施例提供一种眼底图像识别模型训练方法：获取不同域的第一眼底图像、第二眼底图像和根据上述方案得到的混合图像，以及相应的标注数据；利用第一眼底图像、第二眼底图像、混合图像以及相应的标注数据对神经网络模型进行训练。通过在训练过程中加入由不同风格、位置的图块通过线性插值连接在一起的混合图像,模型因此可以获得在未见领域更好的表现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种用于眼底图像识别模型的训练数据生成方法，其特征在于，包括：

获取不同域的第一眼底图像和第二眼底图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述标注数据是针对眼底血管的标注。

4.根据权利要求1或2所述的方法，其特征在于，分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理具体包括：

获得所述第一眼底图像和所述第二眼底图像的灰度图像；

5.根据权利要求1或2所述的方法，其特征在于，对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分具体包括：

利用Q^samp、Q^tamp及权重数据β得到融合模信号Q^new。

6.根据权利要求5所述的方法，其特征在于，Q^new＝(1-γ)*Q^samp+β*Q^tamp，β为掩膜，其中包括一个边长随机的正方形区域。

7.根据权利要求5所述的方法，其特征在于，利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像具体包括：

获取所述第一频谱数据Q^s中的角信号Q^sphase；

对[Q^new,Q^sphase]进行反向傅立叶变换便得到融合眼底图像。

8.根据权利要求1或2所述的方法，其特征在于，在所述融合眼底图像和所述第二眼底图像中选取部分图像组合成混合图像作为训练数据具体包括：

将选取的图像块组合成混合图像。

9.根据权利要求8所述的方法，其特征在于，通过如下方式将选取的图像块组合成混合图像p_new：

p_new＝λ*p_1i+(1-λ)*p_2j，

10.一种眼底图像识别模型训练方法，其特征在于，包括：

获取不同域的第一眼底图像、第二眼底图像、根据权利要求1-9中任一项所述方法生成的混合图像，以及相应的标注数据；

11.一种用于眼底图像识别模型的训练数据生成设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-9中任意一项所述的用于眼底图像识别模型的训练数据生成方法。

12.一种眼底图像识别模型训练设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求10所述的眼底图像识别模型训练法。