CN111833334A

CN111833334A - 一种基于孪生网络架构的眼底影像特征处理分析方法

Info

Publication number: CN111833334A
Application number: CN202010687183.4A
Authority: CN
Inventors: 戴超; 盛斌; 贺加原
Original assignee: Shanghai Zhitang Health Technology Co ltd
Current assignee: Shanghai Zhitang Health Technology Co ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-10-27

Abstract

本发明提供一种基于孪生网络架构的眼底影像特征处理分析方法，包括：结合高斯滤波和限制对比度自适应直方图均衡的双重预处理对数据集预处理；融合全局特征与局部特征作为模型的输入；提出双目孪生网络模型；迁移学习训练双目孪生网络架构；结合交叉熵与改进型欧氏距离加和的损失函数。相比于现有模型，本发明基于孪生网络架构的眼底影像特征处理分析方法，能够显著提高分析结果准确率。

Description

一种基于孪生网络架构的眼底影像特征处理分析方法

技术领域

本发明涉及计算机辅助医学诊断及图像处理领域，尤其涉及一种基于孪生网络架构的眼底影像特征处理分析方法。

背景技术

糖尿病视网膜病变(DR)是糖尿病的一种常见并发症，与长期糖尿病所致的视网膜血管损害有关，是世界范围内失明和视力受损的重要原因之一。事实上，如果及时发现和治疗，DR对视力的损害是可以控制或避免的。然而，许多患者错过了最佳的治疗时机，因为在DR的早期阶段几乎没有迹象或症状，而且DR的诊断主要取决于眼底照片的观察和评估。其中的程序即使对有经验的专家来说也并不简单且非常耗时。因此，计算机辅助自动诊断方法在临床上有很大的潜力，它可以在短时间内准确地检测DR，从而进一步提高DR的筛查率，减少患者失明的可能。

现有计算机辅助自动诊断DR技术主要包括两类方法。一类是比较常见的深度学习DR分级方法，因为它允许更好地利用大量可用数据，并更好地处理因任务复杂性而产生的标记噪声。尽管这些基于深度学习的方法具有较高的分类性能，但这些方法中运用到的神经网络所具有的黑箱特性阻碍了它在一些场景下的应用。因此另外一些提高DR分类可解释性同时也更加通用的方法被提出，但该类方法的模型准确率需要对模型有特定的假设，在不做假设的通用条件下模型分类准确率较低。

发明内容

针对现有技术中存在的上述缺陷，本发明提供了一种基于孪生网络架构的眼底影像特征处理分析方法，可以实现较高模型准确率。

依据本发明的一个方面，提供了一种基于孪生网络架构的眼底影像特征处理分析方法，包括以下步骤：

a)输入图像，结合高斯滤波和限制对比度自适应直方图均衡的双重预处理对数据集预处理；

b)对a)中预处理后的图像分别进行全局特征与区域特征的提取；

c)利用Efficientnet系列特征提取网络从步骤b)中提取的全局与区域特征中进一步得到抽象的特征向量；

d)构建双目孪生网络算法模型，将c)中提取的双目特征向量作为双目孪生网络算法模型的输入；

e)输出影像特征分析的结果。

在其中的一实施例，该方法还包括：由于数据集中的眼底图像拍摄条件各异，造成亮度、对比度等差异较大，而且使得病灶特征不明显，因此为了使模型从有效的图像中学习，本发明对数据集中的图像进行了预处理操作。在对数据集预处理的过程中，本发明首先对图像进行Crop操作，即将眼球周围的黑色区域裁剪，防止其对模型产生副作用。具体方法为：将RGB图像转化为灰度图，人为设定阈值，只需将低于阈值的部分裁剪掉即可。其次，对裁剪后的图像进行高斯滤波。高斯滤波是一种线性平滑滤波，适用于消除高斯噪声，广泛应用于图像处理的减噪过程。其过程是对整幅图像进行加权平均的过程，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到。将原图像与高斯滤波后的图像按一定比例叠加，得到第一步预处理后的结果。

在第一步预处理后，进一步对图像进行限制对比度的自适应直方图均衡化操作。传统的直方图均衡化能够有效地平衡图像的对比度，但无法突出局部特征。自适应的直方图均衡化采用局部直方图均衡化的方法，能很好地显示局部细节，可是不能减少底部噪声。而限制对比度的自适应直方图均衡化就针对这一问题做出了改进，其通过限制对比度增加的幅度，从而减少噪声。经过两步预处理后，可以得到病灶特征突出且对比度均衡的眼底图像。

在其中的一实施例，上述步骤b)中对预处理后的数据集分别进行全局特征与区域特征的提取，该方法还包括：本发明同时对全局信息与局部信息进行特征提取。根据医学上的先验知识，微血管瘤往往出现在眼底结构黄斑周围，而纤维血管增殖膜往往出现在视盘周围。于是本发明对黄斑区域和视盘区域的局部特征也进行提取，引入深度神经网络中，达到综合运用全局特征与局部特征的效果。首先观察数据集发现，右眼视盘往往出现在眼底中心偏右位置，黄斑往往出现在眼底中心偏左位置；左眼视盘往往出现在眼底中心偏左位置，黄斑往往出现在眼底中心靠右位置。因此可以自动从每张眼底照片中提取对应位置，并对该数据集进行人为检查，排除掉不包含特定区域的label和对应样本。其中样本代表整张眼底图片，label代表的是包含黄斑或视盘的矩形区域，本发明用(x,y)表示矩形中心的坐标(已做归一化处理),(dx,dy)表示矩形长和宽占整张图片长和宽的比例。这样一个label可以由一个(x,y,dx,dy)的四元组所表示。

构造完成上述小型数据集后，本发明训练卷积神经网络，并对所有图片进行视盘、黄斑区域的提取。其中由于出现位置和大小较为固定，任务难度并不高，本发明采用了较小规模的卷积神经网络Effficientnet-b0进行了特征区域的提取。

在其中的一实施例，上述步骤c)利用Efficientnet系列特征提取网络从步骤b)中提取的全局与区域特征中进一步得到抽象的特征向量还包括：对于图像特征提取网络(Feature Extraction NN)，本发明先后尝试了目前流行的多种CNN架构，如ResNet系列、DenseNet系列、ResNext等，最终通过实验结果的对比，本模型采用了Efficientnet系列网络架构。Efficientnet的基线模型Efficientnet-b0使用mobile inverted bottleneckconvolution(MBConv)，类似MobileNetV2和MnasNet。Efficientnet通过复合缩放基础网络的分辨率、宽度和深度等要素，利用多目标的神经网络结构搜索同时优化精度和FLOPS，构造出一系列由小到大的网络。完成对特定区域的提取后，用图像特征提取网络对特定区域的特征进行提取，并同用图像特征提取网络对整张图片提取得到的特征拼接在一起，组成包含全局与局部特征的特征向量，进行下一步的操作。

在其中的一实施例，上述步骤d)双目孪生网络模型还包括：双目孪生网络的输入为经过上一步提取得到的综合全局图像与局部图像的同一患者的左右眼的特征向量，将双眼特征分别输入孪生网络的两个输入模块。两张图片特征输入后，经过一系列操作，最终输出双眼患病程度。实际上，每只眼睛都会被认为是主要诊断的对象，另一只眼睛作为辅助检测的对象，而两只眼睛的推断是同时进行的。

首先，两个输入的特征向量X(1)和X(2)会进入到特征提取神经网络中，本发明最终采用的特征提取网络为Efficientnet系列网络。左右眼所输入的网络是同样架构且参数共享的。此后，将得到进一步抽象的特征向量Y(1)和Y(2)。Y(1)和Y(2)被用于计算两张图片的差异性D与相似度(1-D)，计算二者的欧氏距离后再利用sigmoid函数进行归一化，见公式(1)。

D＝sigmoid(‖Y(1)-Y(2)‖²) (1)

其次，根据计算得到的相似度对主诊断眼和辅助眼进行特征融合。医学上，若两只眼睛越相似，则辅助眼的特征需要更多的考虑进来；反之，若两只眼睛差异较大，则不应让辅助眼的特征影响到主诊断眼的判断。由此，以左眼为例，按公式(2)进行特征融合，通过不同权重来调节辅助眼影响的大小。右眼同理。

Y^′(1)＝(1-D)Y(1)+DY(2) (2)

最后，融合后的特征进入前向传播网络和Softmax层，得到分类结果，同时生成双眼的诊断结果。

在其中的一实施例,该方法还包括：对双目孪生模型的训练过程采用的是迁移学习的方法。本发明将Efficientnet在ImageNet上预训练得到的权重参数作为图像特征提取网络的初始化参数，而整个网络架构中的其他参数均使用随机初始化的方法。另外，考虑到ImageNet分类任务与本模型所应用的任务有着较大的区别，因此模型的所有层的参数均是可训练的，即没有冻结任一层的参数。双目孪生模型的损失函数是本发明提出的交叉熵与改进型欧氏距离加和的新型损失函数如公式(3)-公式(6)所示。

CE＝-p_xlogq_x (3)

L＝αCE+βWMSE (6)

其中p_x为label向量，q_x为预测的结果向量，p_x.k代表p_x向量中的第k个分量，q_x.k同理，c为分类类别的个数，i代表实际结果为第i类，α和β为可调节的权重参数。CE为正常的交叉熵，WMSE为改进型的欧氏距离。改进的思路为，本发明希望损失函数中能够体现预测类别与实际类别之间的差距带来的惩罚程度的不同。例如，当实际类别i＝0时，WMSE计算方法如公式(7)。

利用改进型的欧氏距离计算，可以缩小预测类别与实际类别之间的距离。但是，若只使用这一项作为损失函数，则无法直接体现k＝i时预测概率大小的区别。例如公式7中q_x.0＝0.2或q_x.0＝0.5得到的第一项均为0，故需要同时考虑CE，才能体现其中的差别。另外，由于i为实际类别，即训练前已知的，可视为常数，故此损失函数是可导的，可使用一般的梯度下降进行优化。同时，本发明采用多任务交替学习的方法，Softmax层神经元个数为11个，11＝2+4+5，即交替进行二分类、四分类和五分类的训练，前2个神经元输出有病无病二分类的结果，中间4个神经元输出有病样本四分类的结果，后5个神经元输出整体五分类的结果。由于除最后一层外，在分别训练二、四、五分类时，模型架构是保持不变的，故可以进行迁移学习。利用二分类训练得到的权重参数初始化四分类，再用四分类训练后得到的参数初始化五分类，由此既能加速训练过程，也能使模型利用二分类、四分类的知识以辅助五分类。

采用本发明的基于孪生网络架构的眼底影像特征处理分析方法，首先结合高斯滤波和限制对比度自适应直方图均衡的双重预处理对数据预处理；接着对预处理后的数据集分别进行全局特征与区域特征的提取；然后利用Efficientnet系列特征提取网络进一步得到抽象的特征向量；接着将提取到的抽象特征向量作为双目孪生网络模型的输入，采用迁移学习对模型进行训练，并结合交叉熵与改进型欧氏距离加和的损失函数作为双目孪生网络模型的损失函数，最后不断训练模型，至模型的分类准确率收敛。相比于现有技术，本发明基于孪生网络架构的眼底影像特征处理分析方法，实现较高分析结果准确率。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后，将会更清楚地了解本发明的各个方面。其中，

图1是本发明的系统框架图。主要包括三个步骤:第一步，对图片进行数据增强和预处理工作，采用旋转变换，镜像变换等确定性增强方式对数据集进行扩充，平衡各个样本类别的比例。并对处理后的图片并使用限制对比度的局部自适应直方图均衡化处理和高斯滤波，突出病灶位置。第二步，在小规模数据集上训练黄斑区域和视盘区域提取网络，对数据集所有图片进行黄斑区和视盘区域的提取。第三步，对于左右眼，分别将将融合全局图片、黄斑区以及视盘区图片的特征输入本文提出的左右眼决策相互辅助的双目孪生神经网络，以Cross Entropy和WSME的加权值为新的损失函数，最终输出对左右眼的评价结果。

图2是本发明结合高斯滤波和限制对比度自适应直方图均衡的双重预处理对数据集预处理后的效果。

图3是本发明全局与区域特征提取框架。

图4是本发明中的双目孪生网络模型架构。

图5-图7是消融实验的结果图。其中：图5是本发明提出的双目孪生检测与现有的单目检测对比。图6是本发明剔除的双重预处理方法的有效性验证。图7是验证本发明提出的综合全局与局部的特征提取的有效性。

具体实施方式

为了使本申请所揭示的技术内容更加详尽与完备，可参照附图以及本发明的下述各种具体实施例，附图中相同的标记代表相同或相似的组件。然而，本领域的普通技术人员应当理解，下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外，附图仅仅用于示意性地加以说明，并未依照其原尺寸进行绘制。

下面参照附图，对本发明各个方面的具体实施方式作进一步的详细描述。

图1是本发明的系统框架图。主要包括三个步骤:第一步，对图片进行数据增强和预处理工作，采用旋转变换，镜像变换等确定性增强方式对数据集进行扩充，平衡各个样本类别的比例。并对处理后的图片并使用限制对比度的局部自适应直方图均衡化处理和高斯滤波，突出病灶位置。第二步，在小规模数据集上训练黄斑区域和视盘区域提取网络，对数据集所有图片进行黄斑区和视盘区域的提取。第三步，对于左右眼，分别将将融合全局图片、黄斑区以及视盘区图片的特征输入本文提出的左右眼决策相互辅助的双目孪生神经网络，以Cross Entropy和WSME的加权值为新的损失函数，最终输出本发明对左右眼的评价结果。

图2是本发明结合高斯滤波和限制对比度自适应直方图均衡的双重预处理对数据集预处理后的效果。其中左图为数据集中的原始图像，中间图为高斯滤波预处理后的图像，右图为结合高斯滤波和限制对比度自适应直方图均衡的双重预处理后的图像。

图3是本发明全局与区域特征提取框架。

图4是本发明中的双目孪生网络模型架构。双目孪生网络的输入为经过上一步提取得到的综合全局图像与局部图像的同一患者的左右眼的特征向量，将双眼特征分别输入孪生网络的两个输入模块。两张图片特征输入后，经过一系列操作，最终输出双眼患病程度。

图5-图7是本发明消融实验的结果图。

图5是本发明提出的双目孪生检测与现有的单目检测对比。其中，Y为真实值，Y’为单目检测预测值，Y”为双目孪生检测预测值。若只按照单眼检测，则左眼会较难辨识，易出现错误。而双眼检测时，左眼检测会结合右眼的信息，故模型预测更准确，且更具有鲁棒性。

图6是本发明剔除的双重预处理方法的有效性验证。Y为真实值，Y’为无预处理时的预测值，Y”为预处理后的预测值。由图6右图可见，预处理能够缓解拍摄时的亮度问题，使病灶细节突出，利于结果的预测。而且，预处理不意味着完全将特征放大化、严重化，由图6左图可见，预处理还能够平滑一些可能会被认为是病灶的噪声，同样使得模型鲁棒性更强。

图7是验证本发明提出的综合全局与局部的特征提取的有效性。Y为真实值，Y’为只考虑全局特征时的预测值，Y”为综合全局与局部特征的预测值。对于图7左图，在提取全局特征时会忽略掉细小的出血点，而若考虑从局部黄斑区提取特征，就能将细小的出血点捕捉到。对于图7右图，当从局部视盘区提取特征时，能更好地捕捉到纤维血管增殖膜，故有利于结果的预测。

依据一具体实施例，由于数据集中的眼底图像拍摄条件各异，造成亮度、对比度等差异较大，而且使得病灶特征不明显，因此为了使模型从有效的图像中学习，本发明对数据集中的图像进行了预处理操作。在对数据集预处理的过程中，本发明首先对图像进行Crop操作，即将眼球周围的黑色区域裁剪，防止其对模型产生副作用。具体方法为：将RGB图像转化为灰度图，人为设定阈值，只需将低于阈值的部分裁剪掉即可。其次，对裁剪后的图像进行高斯滤波。高斯滤波是一种线性平滑滤波，适用于消除高斯噪声，广泛应用于图像处理的减噪过程。其过程是对整幅图像进行加权平均的过程，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到。将原图像与高斯滤波后的图像按一定比例叠加，得到第一步预处理后的结果。

依据一具体实施例，在上述对图像预处理操作完成后，本发明同时对预处理后数据集中的每张图片的全局信息与局部信息进行特征提取。根据医学上的先验知识，微血管瘤往往出现在眼底结构黄斑周围，而纤维血管增殖膜往往出现在视盘周围。于是本发明对黄斑区域和视盘区域的局部特征也进行提取，引入深度神经网络中，达到综合运用全局特征与局部特征的效果。首先观察数据集发现，右眼视盘往往出现在眼底中心偏右位置，黄斑往往出现在眼底中心偏左位置；左眼视盘往往出现在眼底中心偏左位置，黄斑往往出现在眼底中心靠右位置。因此可以自动从每张眼底照片中提取对应位置，并对该数据集进行人为检查，排除掉不包含特定区域的label和对应样本。其中样本代表整张眼底图片，label代表的是包含黄斑或视盘的矩形区域，本发明用(x,y)表示矩形中心的坐标(已做归一化处理),(dx,dy)表示矩形长和宽占整张图片长和宽的比例。这样一个label可以由一个(x,y,dx,dy)的四元组所表示。

依据一具体实施例，在上述步骤完成对特定区域的提取后，本发明用图像特征提取网络对特定区域的特征进行提取，对于图像特征提取网络(Feature Extraction NN)，本发明先后尝试了目前流行的多种CNN架构，如ResNet系列、DenseNet系列、ResNext等，最终通过实验结果的对比，本发明采用了Efficientnet系列网络架构。Efficientnet的基线模型Efficientnet-b0使用mobile inverted bottleneck convolution(MBConv)，类似于MobileNetV2和MnasNet。Efficientnet通过复合缩放基础网络的分辨率、宽度和深度等要素，利用多目标的神经网络结构搜索同时优化精度和FLOPS，构造出一系列由小到大的网络。完成对特定区域的提取后，用图像特征提取网络对特定区域的特征进行提取，并同用图像特征提取网络对整张图片提取得到的特征拼接在一起，组成包含全局与局部特征的特征向量，进行下一步的操作。

依据一具体实施例，上述模型的特征工程完成后，开始构建双目孪生网络。双目孪生网络的输入为经过上一步提取得到的综合全局图像与局部图像的同一患者的左右眼的特征向量，将双眼特征分别输入孪生网络的两个输入模块。两张图片特征输入后，经过一系列操作，最终输出双眼患病程度。实际上，每只眼睛都会被认为是主要诊断的对象，另一只眼睛作为辅助检测的对象，而两只眼睛的推断是同时进行的。

其次，根据计算得到的相似度对主诊断眼和辅助眼进行特征融合。医学上，若两只眼睛越相似，则辅助眼的特征需要更多的考虑进来；反之，若两只眼睛差异较大，则不应让辅助眼的特征影响到主诊断眼的判断。由此，以左眼为例，按公式(2)进行特征融合，通过不同权重来调节辅助眼影响的大小。右眼同理。最后，融合后的特征进入前向传播网络和Softmax层，得到分类结果，同时生成双眼的诊断结果。

依据一具体实施例，上述双目孪生模型采用迁移学习的训练方法。本发明将Efficientnet在ImageNet上预训练得到的权重参数作为图像特征提取网络的初始化参数，而整个网络架构中的其他参数均使用随机初始化的方法。另外，考虑到ImageNet分类任务与本模型所应用的任务有着较大的区别，因此模型的所有层的参数均是可训练的，即没有冻结任一层的参数。双目孪生模型的损失函数是本发明提出的交叉熵与改进型欧氏距离加和的新型损失函数。

利用改进型的欧氏距离计算，可以缩小预测类别与实际类别之间的距离。但是，若只使用这一项作为损失函数，则无法直接体现k＝i时预测概率大小的区别。例如公式(7)中q_x.0＝0.2或q_x.0＝0.5得到的第一项均为0，故需要同时考虑CE，才能体现其中的差别。另外，由于i为实际类别，即训练前已知的，可视为常数，故此损失函数是可导的，可使用一般的梯度下降进行优化。同时，本发明采用多任务交替学习的方法，Softmax层神经元个数为11个，11＝2+4+5，即交替进行二分类、四分类和五分类的训练，前2个神经元输出有病无病二分类的结果，中间4个神经元输出有病样本四分类的结果，后5个神经元输出整体五分类的结果。由于除最后一层外，在分别训练二、四、五分类时，模型架构是保持不变的，故可以进行迁移学习。利用二分类训练得到的权重参数初始化四分类，再用四分类训练后得到的参数初始化五分类，由此既能加速训练过程，也能使模型利用二分类、四分类的知识以辅助五分类。

采用本发明的基于孪生网络架构的眼底影像特征处理分析方法，首先结合高斯滤波和限制对比度自适应直方图均衡的双重预处理对数据预处理；接着对预处理后的数据集分别进行全局特征与区域特征的提取；然后利用Efficientnet系列特征提取网络进一步得到抽象的特征向量；接着将提取到的抽象特征向量作为双目孪生网络模型的输入，采用迁移学习对模型进行训练，并结合交叉熵与改进型欧氏距离加和的损失函数作为双目孪生网络模型的损失函数，最后不断训练模型，至模型的分类准确率收敛。相比于现有技术，本发明基于孪生网络架构的眼底影像特征处理分析方法，可以实现较高的分析准确率。

上文中，参照附图描述了本发明的具体实施方式。但是，本领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims

1.一种基于孪生网络架构的眼底影像特征处理分析方法，该方法包括以下步骤：

e)输出影像特征分析的结果。

2.根据权利要求1所述的方法，其特征在于，所述的方法还包括：

本发明对黄斑区域和视盘区域的局部特征也进行提取，达到综合运用全局特征与局部特征的效果；

眼底影像中，右眼视盘往往出现在眼底中心偏右位置，黄斑往往出现在眼底中心偏左位置，左眼视盘往往出现在眼底中心偏左位置，黄斑往往出现在眼底中心靠右位置，因此可以设定每张眼底照片中提取对应位置。

3.根据权利要求1所述的方法，其特征在于构建抽象的特征向量，该方法还包括：

本发明采用了Efficientnet系列网络架构通过复合缩放基础网络的分辨率、宽度和深度等要素，利用多目标的神经网络结构搜索同时优化精度和FLOPS，构造出一系列由小到大的网络，完成对特定区域的提取后，用图像特征提取网络对特定区域的特征进行提取，并同用图像特征提取网络对整张图片提取得到的特征拼接在一起，组成包含全局与局部特征的特征向量，进行下一步的操作。

4.根据权利要求1所述的方法，其特征在于构建基于眼底医学影像分析的双目孪生网络模型，该方法还包括：

首先，两个输入的特征向量会进入到特征提取神经网络中，本发明最终采用的特征提取网络Efficientnet系列网络，将得到进一步抽象的特征向量并被用于计算两张图片的差异性；其次，根据计算得到的相似度对主诊断眼和辅助眼进行特征融合，医学上，若两只眼睛越相似，则辅助眼的特征需要更多的考虑进来；反之，若两只眼睛差异较大，则不应让辅助眼的特征影响到主诊断眼的判断最后，融合后的特征进入前向传播网络和Softmax层，最后得到分类结果，生成双眼的诊断结果。

5.根据权利要求4所述的方法，其特征在于，该方法还包括：

双目孪生模型的训练过程采用的是迁移学习的方法；

将Efficientnet在ImageNet上预训练得到的权重参数作为图像特征提取网络的初始化参数，而整个网络架构中的其他参数均使用随机初始化的方法，另外，考虑到ImageNet分类任务与本模型所应用的任务有着较大的区别，因此模型的所有层的参数均是可训练的，即没有冻结任一层的参数。

6.根据权利要求4所述的方法，其特征在于，该方法还包括：

本发明提出双目孪生模型的损失函数是的交叉熵与改进型欧氏距离加和的新型损失函数，利用改进型的欧氏距离计算，可以缩小预测类别与实际类别之间的距离，但是，若只使用这一项作为损失函数，则无法直接体现预测概率大小的区别；同时，在改进型的欧氏距离计算中，本发明提出多任务交替学习的方法，由此既能加速训练过程，也能使模型利用二分类、四分类的知识以辅助五分类。