CN116168255A

CN116168255A - 一种长尾分布鲁棒的视网膜oct图像分类方法

Info

Publication number: CN116168255A
Application number: CN202310374674.7A
Authority: CN
Inventors: 叶茫; 肖璇; 温驰; 陈婷; 李莹
Original assignee: Wuhan University WHU; Renmin Hospital of Wuhan University
Current assignee: Wuhan University WHU; Renmin Hospital of Wuhan University
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-05-26
Anticipated expiration: 2043-04-10
Also published as: CN116168255B

Abstract

本发明公开了一种长尾分布鲁棒的视网膜OCT图像分类方法，首先根据直方图类间方差做二值分割提取视网膜OCT图像的大致有效区二值图，通过点积和加法有效提高了OCT图像有效区的信息，抑制了背景噪声。然后设计了一种分类器，基于标准化的思想提高了模型在长尾分布的视网膜OCT图像数据集上的分类性能，并且没有引入过多的参数量。推理阶段先针对模型在同一样本的多种增强操作下的输出分布熵值做最小化优化，再进行推断，提高了模型在应对扰动和分布偏移等情况下的鲁棒性。

Description

一种长尾分布鲁棒的视网膜OCT图像分类方法

技术领域

本发明属于医学图像处理与模式识别领域，特别是涉及一种基于深度学习的视网膜OCT图像分类方法。

背景技术

OCT是一种光学成像技术，目前多用于眼科检查，可以获取视网膜的细节图像，是检测和监测各种黄斑疾病的有力工具。对视网膜OCT图像进行高精度的分类可以辅助医生进行有效的诊断，视网膜OCT图像智能诊断是一种根据病患的视网膜OCT图像，实现对具体视网膜疾病种类的判断的技术，可以高效辅助医生分析病情，提高诊断速度。

现有的图像分类大多基于深度学习方法。Lee等人(Lee C S, Baughman D M, LeeA Y. Deep learning is effective for classifying normal versus age-relatedmacular degeneration OCT images[J]. Ophthalmology Retina, 2017, 1(4): 322-327.)提出使用VGG16架构的网络来检测AMD；Karri等人(Karri S P K, Chakraborty D,Chatterjee J. Transfer learning based classification of optical coherencetomography images with diabetic macular edema and dry age-related maculardegeneration[J]. Biomedical optics express, 2017, 8(2): 579-592.)采用预训练的GoogleLeNet网络在Srinivasan等人公开的OCT图像数据集上进行微调，在有限的数据下训练得到了性能良好的神经网络，可以对DME，AMD以及正常类别数据进行精度在86%以上的分类；Kermany等人(Kermany D S, Goldbaum M, Cai W, et al. Identifying medicaldiagnoses and treatable diseases by image-based deep learning[J]. Cell, 2018,172(5): 1122-1131. e9.)提出采用在ImageNet数据集上预训练的InceptionV3网络，将其在收集的视网膜OCT图像数据集上训练微调图像分类器的方法；Fang(Fang L, Wang C, LiS, et al. Attention to lesion: Lesion-aware convolutional neural network forretinal optical coherence tomography image classification[J]. IEEEtransactions on medical imaging, 2019, 38(8): 1959-1970.)和Huang(Huang L, HeX, Fang L, et al. Automatic classification of retinal optical coherencetomography images with layer guided convolutional neural network[J]. IEEESignal Processing Letters, 2019, 26(7): 1026-1030.)等人提出了视网膜病变区引导的CNN和视网膜层引导的CNN，将视网膜病变层与OCT图像的深层特征相结合，达到了当时的SOTA性能，但这两种方法都需要训练额外的深度模型来提取病变区或视网膜层区域；Heisler等人(Heisler M, Karst S, Lo J, et al. Ensemble deep learning fordiabetic retinopathy detection using optical coherence tomography angiography[J]. Translational Vision Science&Technology, 2020, 9(2): 20-20.)提出了采用集成学习技术的方法，以计算成本和训练时间为代价提高了整体模型的分类性能，以92%和90%的准确度区分了可参考DR和非参考DR；He等人(He X, Deng Y, Fang L, et al.Multi-modal retinal image classification with modality-specific attentionnetwork[J]. IEEE Transactions on Medical Imaging, 2021, 40(6): 1591-1602.)引入了多模态信息和注意力机制，将眼底图像和OCT图像集成到了一个端到端的深度学习模型中，减少了背景区域信息对网络的误导，提高了对特征信息的利用率。

与常规的图像分类任务相比，由于各类疾病发病率的差异，视网膜OCT图像的数据集基本为不均衡分布（长尾分布），长尾分布的数据将严重影响模型的分类性能。而目前国际上公开的大型数据集以常见疾病的数据为主，不平衡程度较低。以上这些深度学习方法虽然在大型数据集上取得了较高的分类精度，但都没有考虑到长尾问题，在应对其他样本量较少的视网膜疾病时难以发挥作用。

发明内容

针对已有技术的不足，本发明提出了一种长尾分布鲁棒的视网膜OCT图像分类方法，在规模更小的且存在严重长尾问题的数据集有更好的分类性能。

本发明的技术方案主要包括以下步骤：

步骤一，增强OCT图像上的大致有效区；

步骤二，对经过步骤一处理之后的图像数据进行数据增强，得到训练集；

步骤三，模型训练：将训练集中的样本分批次输入去除掉全连接层的resnet50进行特征的提取，并通过分类器对提取的特征进行分类，得到训练好的模型；

所述分类器使用无偏线性分类器，并对分类器的权重和输入的特征向量做L2 归一化后再计算logits，并以logits模长归一化计算损失函数；

步骤四，模型推断：对每个测试样本进行多种增强操作，将每种增强操作处理后的样本依次输入到训练好的模型中，得到经过不同数据增强操作后模型对样本的概率分布，根据概率分布计算优化目标函数，使优化目标函数最小化来调整模型参数，最后将测试样本输入到调参之后的模型中得到分类结果。

进一步的，步骤一的具体实现方式如下；

首先根据OCT图像的直方图类间方差做二值分割得到二值图，记为P，将原图记作T，将P和T进行点积运算，其结果与原图T按比例scale做加法得到增强的图像，公式如下：

其中scale的值在0到1之间，通过人为设定。

进一步的，步骤二中数据增强包括：

1）尺寸调整，对输入的原始视网膜OCT图像进行调整到224x224大小；

2）随机裁剪，设定裁剪区域在原图中的面积占比范围在0.5到1.0之间，裁剪区域的长宽比范围在0.5到2.0之间；

3）水平翻转和竖直翻转，其随机概率都设定为0.5；

4）高斯模糊，其核大小设定为3，正态分布的标准差取值范围保持默认的0.1到2.0；

5）随机擦除，执行概率为0.5，遮挡区域的面积占比范围为0.02到0.33，遮挡区域的长宽比的范围为0.3到3.3，遮挡区域的像素值设为0；

6）标准化，各通道的均值和标准差分别设定为[0.485,0.456,0.406]和[0.229,0.224,0.225]。

进一步的，步骤三中分类器计算logits 的具体公式如下：

其中，

指计算得到的logits，K为超参，/>

是分类器的权重，为可学习的网络参数。

进一步的，损失函数具体公式如下：

其中，

为人为设定的温度系数，n为类别数量，/>

指one-hot编码的标签向量中第i类的值，/>

指logits，/>

为logits向量中第j类的值，/>

为logits的模长。

进一步的，步骤四所述增强操作包括：最大化图像对比度、随机旋转、直方图均衡化、反转像素点、色调分离、沿x 轴或y 轴错切图像、沿x 轴或y 轴平移图像。

进一步的，优化目标函数的计算过程如下：

针对每个测试样本x，对其随机进行一系列的增强操作，得到经过m 种增强操作后的样本集合

，首先定义X输入模型后得到的平均输出分布为：

其中，y指预测标签，

指模型对/>

作为输入的情况下对各类标签的预测的概率分布，由logits通过softmax 计算而来；/>

则是指所有输出分布的平均；

将模型平均输出分布的熵作为调整模型参数的参照，也即优化目标函数：

其中，H指平均输出分布的熵，m是样本x经过增强操作的次数，Y 指标签的集合。

进一步的，K设置为8，损失函数的温度系数设置为1。

进一步的，模型训练时，批次batch大小设置为16，使用权重的衰减weight_decay为0.001，动量momentum为0.9，学习率为0.001的SGD优化器进行网络参数的优化与更新，训练次数设置为200。

与现有技术相比，本发明具有以下优点：

（1）本发明根据直方图类间方差做二值分割提取视网膜OCT图像的大致有效区二值图，通过点积和加法有效提高了OCT图像有效区的信息，抑制了背景噪声。

（2）本发明设计了一种分类器，基于标准化的思想提高了模型在长尾分布的视网膜OCT图像数据集上的分类性能，并且没有引入过多的参数量。

（3）本发明在推理阶段先针对模型在同一样本的多种增强操作下的输出分布熵值做最小化优化，再进行推断，提高了模型在应对扰动和分布偏移等情况下的鲁棒性。

本发明提出的方法在某某医院临床收集的视网膜OCT图像上进行评估，取得了比目前先进技术更好的表现，整体正确率从75%左右提升到88%左右，尾部类正确率基本达到60%以上。

附图说明

图1为本发明方法的训练流程图。

图2为本发明方法的推断流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

如图1和图2所示，本发明提供的一种长尾分布鲁棒的视网膜OCT图像分类方法，包括如下步骤：

步骤一：增强OCT图像大致有效区。视网膜OCT图像通常存在较明显的噪声，这会一定程度影响模型的训练。不同于其他已有方法训练额外模型提取精确有效区域的做法，我们采取更为简单的做法，具体如下：首先根据OCT图像的直方图类间方差做二值分割得到二值图，记为P，将原图记作T。将P和T进行点积运算，其结果与原图T按比例scale做加法，公式如下：

其中scale的值在0到1之间，人为设定。这种方式增强OCT图像有效区的信息，且抑制了背景部分的噪声干扰，有利于模型的训练。

本步骤中属于发明点的部分为，根据直方图类间方差做二值分割大致分离有效区与背景，将得到的二值图与原图进行简单运算实现对有效区信息的增强以及背景噪声的抑制。

步骤二：数据增强。由于本数据集的样本量较小，我们选择针对训练数据集进行一系列的简单图像处理操作从而实现数据增强，来扩充数据集的大小，同时降低模型对图像属性的依赖，降低过拟合的风险。本步骤中，训练阶段时采取的增强操作有：

1）尺寸调整(Resize)，对输入的原始视网膜OCT图像(大小为782x286)进行调整到224x224大小；

2）随机裁剪(RandomResizedCrop)，设定裁剪区域在原图中的面积占比范围(scale)在0.5到1.0之间，裁剪区域的长宽比范围(ratio)在0.5到2.0之间；

3）水平翻转(RandomHorizontalFlip)和竖直翻转(RandomVerticalFlip)，其随机概率都设定为0.5；

4）高斯模糊(GaussianBlur)，其核大小(kernel size)设定为3，正态分布的标准差取值范围(sigma)保持默认的0.1到2.0；

5）随机擦除(RandomErasing)，执行概率为0.5，遮挡区域的面积占比范围(scale)为0.02到0.33，遮挡区域的长宽比的范围(ratio)为0.3到3.3，遮挡区域的像素值设为0；

6）标准化(Normalize)，各通道的均值和标准差分别设定为[0.485,0.456,0.406]和[0.229,0.224,0.225]。

步骤三：模型训练。将经过数据增强后的样本分批次输入去除掉全连接层的resnet50进行特征的提取，通过我们自行设计的分类器对提取的特征进行分类。由于resnet50在长尾分布的视网膜OCT图像数据上学习到的特征分布存在偏向头部类的偏差，为了提高尾部类的性能，我们需要消除偏差带来的影响。在本方法中，我们认为长尾分布下视网膜OCT 图像的特征向量的偏差应当从向量方向与模长两个角度入手。具体的实现方法为，分类器使用无偏线性分类器，并对其权重和输入的特征向量做L2 归一化后再计算logits；在计算损失函数时，将分类器的输出的模长进行归一化，这样我们就能在不受特征向量模长的影响下对标签的独热编码(one hot label)向量方向做优化。分类器计算logits 的具体公式如下：

其中，

指计算得到的logits，K为超参，/>

是分类器的权重(可学习的网络参数)。权重与特征分别做L2 归一化，以这种方式一定程度上抑制长尾下特征分布偏移带来的影响。

提出的损失函数具体公式如下：

其中，

为人为设定的温度系数，n为类别数量，/>

指one-hot编码的标签向量中第i类的值，/>

指logits，/>

为logits向量中第j类的值，/>

为logits的模长。

本步骤中属于发明点的部分为，基于归一化抑制特征分布偏移思想设计的分类器，配合logits模长归一化进行损失计算的损失函数，缓解网络在视网膜OCT 图像训练时的长尾问题。

步骤四：模型推断。我们认为在小型的长尾分布的视网膜OCT 图像数据集上训练得到的模型，在实际推理时，或将难以应对输入的扰动或分布偏移，这也可能是尾部类性能弱于头部类的原因之一。然而小规模数据集下，在训练时进一步提高鲁棒性是较为困难的，因此我们希望利用测试数据来提高模型推理时的鲁棒性。具体的方法如下：

针对每个测试样本x，我们对其随机进行一系列相较于训练时更为复杂的数据增强操作

，得到经过m 种增强后的样本集合/>

，具体的增强操作包括：最大化图像对比度、随机旋转、直方图均衡化、反转像素点（随机指定一个像素值，将高于该值的像素点进行翻转）、色调分离（减少颜色通道的位数）、沿x 轴或y 轴错切图像、沿x 轴或y 轴平移图像。

将X中的每个样本依次输入训练好的模型，得到经过不同数据增强方法后模型对样本的置信度分布。我们希望模型在众多数据增强操作下能得到一致的预测结果，因为这意味着模型鲁棒性的提升，为了达到这一目标，我们基于以下公式对模型参数进行更新。首先定义X输入模型后得到的平均输出分布为：

其中，y指预测标签，

指模型对/>

则是指所有输出分布的平均。

将模型平均输出分布的熵作为调整模型参数的参照，也即优化目标：

其中，H指平均输出分布的熵，m是样本x经过增强操作的次数，Y 指标签的集合，目的是使优化目标函数最小化。

每个样本在进行推断之前，都先经过以上步骤调整一次模型参数，理论上此时的模型鲁棒性有一定提升，再将样本x输入模型进行分类。调整后的模型并不保留，每次输入样本都重新加载训练得到的模型。

本步骤中属于发明点的部分为，将用于推理的OCT图像分类前，先对其在多种数据增强操作下模型输出分布的熵做最小化优化，提高模型的鲁棒性，再将原始的OCT图像输入模型，得到最终的分类结果。

本实施示例采用的深度学习框架为Pytorch。实验的硬件环境是NVIDIA GeForceRTX 3090显卡，处理器为Intel(R) Xeon(R) CPU E5-2678.长尾分布鲁棒的视网膜OCT图像分类方法的具体实施流程如下：

第一步：分类网络搭建

实验中采用IMAGENET1K_V1预训练的resnet50去除全连接层做为主干网络，特征通过标准化的无偏置分类器计算logits后输出分类结果。

第二步：网络训练

以7:3的比例划分数据集为训练集和测试集。训练集图像数据进行有效区增强后，再进行步骤二的数据增强并输入网络，使用提出的基于logits 归一化的损失函数进行网络学习阶段的训练，利用前向传播和反向传播对网络参数进行优化和更新。

第三步：网络测试

使用训练过程中效果最好的模型，每次单张输入测试集中的图像数据，通过对样本随机施加多种数据增强操作后输入模型，对此时的输出分布的熵做最小化优化，更新模型参数后再进行推断。

实施例：

1.数据集

本发明使用的数据集来自某某医院临床收集的视网膜OCT图像，疾病种类包括BRVO，CRVO，DME和Uveitis。与自然图像不同的是，医学图像分划分需以患者为单位。数据集中记录的同一患者的OCT图像不止一张，而出自同一病患的OCT图像往往非常相似，若同一患者的OCT图像被同时划分到训练集和测试集中，将导致相当于部分测试集数据提前暴露到训练过程中的后果，使得到的模型准确率不可靠。

该数据集总共包含图像468张，其中DME有356张，CRVO有62张，BRVO有36张，Uveitis有14张，不平衡程度为19.8，并且由于样本根据患者id进行比例划分，而不同患者的图像数量不一致，最终划分的数据集标签分布均为长尾且有数据分布偏移问题。

2.实验设置

本发明对将OCT图与分割得到的二值图做点积后，按原图：二值图=1:4的比例做加法融合，即scale取值为0.2。将融合图大小调整为224*224，并且对训练集采用随机裁剪、概率为0.5的水平和竖直翻转及随机擦除、核大小为3*3的高斯模糊与标准化。用ImageNet-1K预训练的参数进行主干网络参数初始化。网络训练时，batch大小设置为16，使用weight_decay为0.001，momentum为0.9，学习率为0.001的SGD优化器进行网络参数的优化与更新，训练次数设置为200；分类器的logits计算时，

设置为8，损失函数的温度系数设置为1；测试时batch大小为1，使用学习率为0.01的SGD优化器，每个样本每次调整模型参数阶段随机使用32次不同增强操作。整个实验的实现基于PyTorch。

3.分类准确率比较

为了验证本发明的有效性，本节将本发明的分类结果与现有长尾分布数据下的图像分类方法进行了对比，主要的对比方法有：

(1)Re-sampling：Shen, Li, Zhouchen Lin, and Qingming Huang. "Relaybackpropagation for effective learning of deep convolutional neuralnetworks." European conference on computer vision. Springer, Cham, 2016.

(2)Focal loss: Lin, Tsung-Yi, et al. "Focal loss for dense objectdetection." Proceedings of the IEEE international conference on computervision. 2017.

(3)Equalization loss: Tan, Jingru, et al. "Equalization loss forlong-tailed object recognition." Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition. 2020.

(4)Decouple: Kang, Bingyi, et al. Decoupling Representation andClassifier for Long-Tailed Recognition. arXiv:1910.09217, arXiv, 19 Feb.2020. arXiv.org, https://doi.org/10.48550/arXiv.1910.09217.

在某某医院临床收集的视网膜OCT图像数据集上进行测试，结果见下表：

表1各方法分类结果

此外，本方法的单幅图像推理时间在本实验环境下仅需约0.57s，可以显著提高医生的诊断速度。

从表中可以看出，与近些年的长尾学习分类方法相比，本发明更大程度上提高了尾部类(CRVO, Uveitis)的分类性能，尽管一定程度上降低了头部类的分类准确率，但整体上的分类准确率有所上升。同时，相比于最好的Decouple方法，本方法不需要两阶段的训练，在模型训练上也更为简单，并且能够更好地应对实际推理时的数据分布偏移等问题。在本数据集上的实验结果证明了本发明所提方法的有效性。