CN115601751B

CN115601751B - 一种基于领域泛化的眼底图像语义分割方法

Info

Publication number: CN115601751B
Application number: CN202211349791.XA
Authority: CN
Inventors: 陈微; 罗馨; 李晨; 何玉麟; 姚泽欢; 汤明鑫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-04-28
Anticipated expiration: 2042-10-31
Also published as: CN115601751A

Abstract

本发明公开了一种基于领域泛化的眼底图像语义分割方法，技术方案是构建由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成的眼底图像语义分割系统。先对眼底图像语义分割系统进行训练，输入内容增强模块对眼底图像增强并合成一张眼底图像；特征提取模块提取眼底图像的特征矩阵；特征风格随机化模块对特征矩阵进行特征风格随机化。特征解码模块对风格随机化的特征矩阵进行空间空洞卷积，得到预测矩阵；类别划分模块根据预测矩阵得到眼底图像语义分割结果。训练过程中进行验证。训练后的眼底图像语义分割系统对用户输入的眼底图像进行分割。本发明解决了眼底图像语义分割方法泛化性差、Dice数值低的问题。

Description

一种基于领域泛化的眼底图像语义分割方法

技术领域

本发明涉及计算机视觉和医学图像处理领域，特指一种基于领域泛化的眼底图像语义分割方法。

背景技术

医学图像语义分割，英文名称Medical Image Semantic Segmentation，是指对医学图像中的每一个像素进行类别指派，常见的医学图像语义分割包括器官分割、病变区域分割等。眼底图像语义分割，英文名称Fundus Image Semantic Segmentation，是一种常见的医学图像语义分割任务，该任务对采集的眼底图像(Fundus Image)进行处理和分析，将图像分割为视盘(OpticDisc)和视杯(OpticCup)。在临床诊断等应用场景下，医学图像语义分割结果的准确度与应用的任务执行效果直接相关，在眼底图像医学分割中，能否对视杯、视盘进行精确分割直接影响青光眼的诊断结果。

目前用于衡量眼底图像语义分割的标准主要是Dice系数。Dice系数是一种用来衡量两个样本相似度的度量值。Dice系数的定义如下：

(见文献“J.Bertls，T.Elebode，et al.Optimizing the Dice Score and Jaccard Index forMedical Image Segmentation：Theory&Practice[C]，2019.”J.Bertls，T.Elebode等人的论文：用于医学图像语义分割的Dice系数和Jaccard指标：理论与实践)，其中，Dice_c表示第c个类别的Dice系数；TP_c表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签为第c个类别的像素数量(即预测正确的第c个类别正例数量)；FP_c表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签不是第c个类别的像素数量(即预测错误的第c个类别负例数量)；FN_c表示预测的眼底图像语义分割结果中预测为非第c个类别且真实标签为第c个类别的像素数量(即预测错误的第c个类别正例数量)。对于包含多个类别的眼底图像语义分割问题，通常先计算每个类别的Dice系数，然后将所有类别的Dice系数平均值作为最终的衡量指标。

随着深度学习技术及相关算力资源的发展，基于深度学习的眼底图像语义分割方法已经达到最先进的Dice系数水平。BEAL方法(BEAL，Boundary and Entropy-drivenAdversarial Learning，详见文献“S.Wang，L.Yu，et al.Boundary and Entropy-drivenAdversarial Learning for Fundus Image Segmentation[C]2018”，S.Wang，L.Yu等人的论文：用于眼底图像语义分割的边缘和熵驱动的对抗学习)先利用神经网络提取眼底图像的特征表示，然后基于该特征表示预测最终的眼底图像语义分割结果。当训练数据和测试数据均来自RIM-ONE-r3数据集时，针对眼底图像视杯分割任务，BEAL方法达到0.856的Dice系数；针对眼底图像视盘分割任务，BEAL方法达到0.968的Dice系数。

已有方法大多需要大量有标注数据训练眼底图像语义分割模型，在采集数据过程中，需要对图像进行像素级标注，这通常需要标注者的专业知识、且需要极高的时间成本。由于小型医疗机构难以满足眼底图像语义分割模型对大量标注数据的需求，他们通常需要借助其他机构的眼底图像语义分割模型。但是，考虑到不同医疗机构具有不同规格的采集设备、操作人员的专业水平不一，不同医疗机构采集的眼底图像具有不同的数据分布，这种数据分布差异使得一个医疗机构训练的眼底图像语义分割模型难以在其他医疗机构中使用。例如：REFUGE和RIM-ONE-r3是两个不同机构采集的眼底图像语义分割数据集，在RIM-ONE-r3数据训练集上学习后，BEAL方法可以在RIM-ONE-r3数据测试集上达到较高的Dice系数(眼底视杯分割达到0.856，眼底视盘分割达到0.968)；然而，对于同样的模型，在REFUGE数据集的训练集上训练后，在RIM-ONE-r3数据集的测试集上仅能达到0.744的眼底视杯分割Dice系数、0.779的眼底视盘分割Dice系数。在不同数据分布的数据集上表现出较差性能，说明该眼底图像语义分割模型的泛化能力较弱，因此，如何学习泛化能力较强的眼底图像语义分割模型，通过关注数据中和眼底图像语义分割直接相关、和数据分布无关的特征，提升眼底图像语义分割模型在应用到不同机构数据时的Dice系数，是本领域技术人员极为关注的技术难题。

一种有效提升模型泛化能力的方法是领域泛化(Domain Generalization，DG)，它是深度学习方法中的一个研究方向，旨在减少不同数据之间的分布差异，使模型在学习过程中关注不同分布特性的数据具有的共同属性。基于这种共同属性，领域泛化使某一医疗机构得到的眼底图像语义分割模型可以在其他医疗机构中正常使用。目前将领域泛化应用于眼底图像语义分割的公开文献较少，一个典型工作是TASD(TASD为Test-timeAdaptation from Shape Dictionary的首字母缩写，详见文献“Q.Liu，C.Chen，etal.Single-domain Generalization in Medical Image Segmentation via Test-timeAdaptation from Shape Dictionary[C]，2022”，Q.Liu，C.Chen等人的论文：基于测试时自适应和形状字典的领域泛化的医学图像语义分割)。TASD提升了眼底图像语义分割模型的泛化性能，但是，该方法在训练和测试过程中添加了额外的分支任务用于预测分割形状，在实际情况下，目标医疗机构不一定支持完成该分支任务，例如：在较小的医疗机构，受限的计算资源可能仅能支持基础的眼底图像语义分割任务，无法再完成额外的分割形状预测任务。因此，如何在不添加额外任务的情况下，提升眼底图像语义分割的泛化性能，是将领域泛化用于眼底图像语义分割需要解决的难题。

综上所述，如何基于领域泛化方法，充分利用某一医疗机构提供的数据集，在不添加辅助任务的情况下，提高眼底图像语义分割的准确率，使得使用该机构数据集学习得到的眼底图像语义分割模型能够在其他医疗机构中保持较高的Dice系数值，是本领域研究人员正在研究的热点问题。

发明内容

本发明要解决的技术问题是针对现有利用神经网络和深度学习的眼底图像语义分割方法在应用到不同医疗机构数据时分割的Dice数值低，且Dice数值区别大，提出一种基于领域泛化的眼底图像语义分割方法，基于现有的深度学习模型框架，利用领域泛化方法，使得眼底图像语义分割模型在作用到不同医疗机构的数据时，相比于背景技术所述的基于深度学习的眼底图像语义分割方法，眼底图像语义分割的Dice数值有所提升，泛化能力强，能适用于不同医疗机构。

为解决上述技术问题，本发明技术方案是：构建眼底图像语义分割系统。该系统由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成。准备眼底图像语义分割系统所需的眼底图像数据集，其中：REFUGE数据集包含400张眼底图像，按照4∶1的比例划分为训练集和验证集；RIM-ONE-r3数据集包含159张眼底图像，按照BEAL中的设置选取其中60张眼底图像作为测试集。在基于领域泛化的眼底图像语义分割系统中，“领域泛化”指的是眼底图像语义分割系统仅在REFUGE数据集上进行训练、验证，完成训练后，直接泛化应用到RIM-ONE-r3数据集。

首先采用训练集对眼底图像语义分割系统进行训练，在训练的每一轮迭代中，输入内容增强模块接收眼底图像，利用四种不同的数据增强方法生成四张不同风格的眼底图像，从四张图像各选择一部分，合成一张眼底图像。将合成的眼底图像发送给特征提取模块，利用卷积神经网络提取合成的眼底图像的特征矩阵，发送到特征风格随机化模块。特征风格随机化模块接收合成的眼底图像的特征矩阵，先提取特征矩阵的通道级均值和标准差、对特征矩阵进行归一化(Normalization)处理；然后从高斯分布中随机采样新的通道级均值和标准差，对归一化的特征矩阵进行特征风格采样和标准化(Standardization)处理，得到风格随机化的特征矩阵，将风格随机化的发送到特征解码模块。特征解码模块先对风格随机化的特征矩阵进行空间空洞卷积操作，再通过一层卷积层网络将特征矩阵的维度降低到眼底图像语义分割的类别数2(视杯或视盘)，并利用sigmoid函数(一种归一化函数，使得每个元素的范围都在[0，1]之间。例如输入向量[1，2，3，4]，经过sigmoid函数处理后，输出向量变为[0.7311，0.8808，0.9526，0.9820])处理，输出通道数为2的预测矩阵，将大于阈值0.75的预测矩阵值设置为1，否则设置为0。由于眼底图像语义分割中，视杯区域位于视盘区域中，根据预测矩阵，将两个通道值均为1的像素分割为“视杯”类别；将只有第一个通道为1的像素分割为“视盘”类别；其余像素分割为“背景”类别。之后，将预测的眼底图像语义分割结果和实际的眼底图像语义标注之间的差距作为损失(loss)值，不断进行模型的训练与参数的更新。同时，在模型训练的过程中，使用验证集对模型进行验证，将性能优异的模型保存下来。最后，采用训练后的眼底图像语义分割系统对用户输入的眼底图像进行分割，得到眼底图像语义分割结果。

本发明包括以下步骤：

第一步：构建眼底图像语义分割系统。该系统由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成。输入内容增强模块和特征风格随机化模块有助于提升训练数据的多样性，改进眼底图像语义分割系统在作用到不同分布眼底图像数据集时的泛化性能。

输入内容增强模块与特征提取模块相连，功能是预处理眼底图像，由四个图像增强层和一个空间混合层构成。输入内容增强模块以输入的眼底图像为基础，得到具有不同风格的增强态眼底图像，再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像，发送给特征提取模块。输入内容增强模块主要作用于训练阶段，在验证和测试阶段，特征提取模块直接接收眼底图像作为输入。

四个图像增强层利用数字图像处理技术并行对输入的眼底图像进行变换，第一到第四图像增强层分别对应四种变换操作：亮度和对比度变换、模糊化、添加高斯噪声、添加椒盐噪声，四种图像变换操作模拟了不同机构采集的眼底图像。

空间混合层由随机空间掩码生成组件和图像混合层组成。随机空间掩码生成组件将一张眼底图像随机地划分为四个空间不相交的区域，得到四个不同的空间掩码(四个掩码两两不相交，且四个掩码的并集覆盖整张眼底图像对应的全部位置)。图像混合层将四个掩码与从四个图像增强层得到的增强态眼底图像组合随机对应，并根据掩码位置将四张增强态眼底图像组合成为一张合成的眼底图像，将合成的眼底图像输入特征提取模块。

特征提取模块是一个卷积神经网络，与输入内容增强模块和特征风格随机化模块相连。在训练阶段，特征提取模块从输入内容增强模块接收合成的眼底图像，为合成的眼底图像提取特征。在验证阶段或测试阶段，特征提取模块直接接收眼底图像，为眼底图像提取特征。特征提取模块由五个卷积模块构成，其中第一卷积模块由一个二维卷积(2DConvolution，Conv2D)层、一个批量归一化(Batch Normalization，BN)层、一个线性整流(Rectified Linear Unit，ReLU)、一个最大池化(Max Pooling)层组成；二维卷积层的输入通道数为3、输出通道数为32，卷积核大小为5×5、步长为1、填充为1；最大池化层的核大小为3×3，步长为2。第一卷积模块从合成的眼底图像(训练阶段)或眼底图像(测试阶段)提取浅层特征矩阵。第二至第五卷积模块均由一个残差块(ResidualBlock，ResBlock)(详见文献“K.He，X.Zhang，et al.Deep Residual Learning for Image Recognition[C]，2016”K.He，X.Zhang等人的论文：用于图像识别的深度残差学习)组成，第二卷积模块从第一卷积模块接收浅层特征，经过残差卷积操作后得到残差特征，然后第三至第五卷积模块按顺序对残差特征进行残差卷积操作，最后，第五卷积模块输出通道数为2048的特征矩阵。在训练阶段，第五卷积模块将该特征矩阵发送给特征风格随机化模块；在验证阶段或测试阶段，第五卷积模块将该特征矩阵发送给特征解码模块。

特征风格随机化模块是一个前向网络，与特征提取模块和特征解码模块相连；特征风格随机化模块从特征提取模块接收特征矩阵，对特征矩阵进行风格化处理，得到风格随机化的特征矩阵。特征风格随机化模块由特征归一化层、特征风格采样层和特征标准化层组成。特征归一化层利用特征矩阵通道级的均值和标准差对特征矩阵进行归一化处理(见文献“S.Ioffe and C.Szegedy，Batch Normalization：Accelerating Deep NetworkTraining by Reducing Internal Covariate Shift[C]，2015”S.Ioffe和C.Szegedy的论文：批量归一化：通过减小内部自变量偏移加速深度神经网络训练)，得到归一化的特征矩阵。特征矩阵为四维矩阵，包括批量维度、通道维度、高度维度和宽度维度，特征风格采样层利用特征矩阵通道维度的均值建模均值高斯分布，从均值高斯分布中采样随机特征均值；同时，特征风格采样层利用特征矩阵通道维度的标准差建模标准差高斯分布，从标准差高斯分布中采样随机特征标准差。特征标准化层利用特征风格采样层得到的随机特征均值和随机特征标准差，对归一化的特征矩阵进行标准化处理，得到标准化的特征矩阵，将标准化的特征矩阵称为风格化随机化特征矩阵，并将风格随机化特征矩阵发送给特征解码模块。

特征解码模块是一个卷积神经网络，与特征风格随机化模块及特征提取模块相连。在训练阶段，特征解码模块从特征风格随机化模块接收风格随机化特征矩阵，对风格随机化特征矩阵进行特征解码，得到预测概率矩阵；在验证阶段或测试阶段，特征解码模块直接从特征提取模块接收特征矩阵，对特征矩阵进行特征解码。特征解码模块由一个空洞空间金字塔池化层(见文献“L.Chen，G.Papandreou，et al.DeepLab：Semantic ImageSegmentation with Deep Convolutional Nets，Atrous Convolution，and FullyConnected CRFs[J]，2018”L.Chen，G.Papandreou等人的论文：DeepLab：基于深度卷积神经网络、空洞卷积和全连接条件随机场的图像语义分割模型)和一个特征解码卷积层构成。空洞空间金字塔池化层包括四个空洞卷积层和一个加法器，第一到第四空洞卷积层的输入通道数均为2048，输出通道数均为256，卷积核大小均为3×3，步长均为1，空洞率(也称扩张率)分别为1、12、24、36，填充分别为1、12、24、36。在训练阶段，第一到第四空洞卷积层并行地从特征解码模块接收风格随机化特征矩阵，并行地对风格随机化特征矩阵进行不同空洞率的卷积操作，提取得到4个不同分辨率的输出特征，提高深度网络的分割准确率。相似地，在验证阶段或测试阶段，第一到第四空洞卷积层并行地从特征提取模块接收特征矩阵，并行地对特征矩阵进行不同空洞率的卷积操作，提取得到4个不同分辨率的输出特征。加法器对4个不同分辨率的输出特征求和，得到汇聚了不同分辨率信息的特征，称为汇聚特征矩阵，通道数为256。特征解码卷积层对汇聚特征矩阵进行特征解码，将汇聚特征矩阵的通道数降低到眼底图像语义分割的类别数量2(即视盘和视杯)，得到预测概率矩阵，发送给类别划分模块。

类别划分模块是一个无参数的前向传播模块，与特征解码模块相连，从特征解码模块接收预测概率矩阵，得到最终的眼底图像语义分割结果。首先，类别划分模块利用sigmoid函数处理预测概率矩阵，将大于阈值0.75的预测矩阵值设置为1，否则设置为0。然后，类别划分模块将眼底图像语义分割结果初始化为全零矩阵，将预测概率矩阵两个通道值均为1的像素分割为“视杯”类别，将对应的分割结果眼底图像语义分割结果设置为2；将只有第一个通道为1的像素分割为“视盘”类别，将对应的分割结果眼底图像语义分割结果设置为1；将其余像素分割为“背景”类别，将对应的分割结果眼底图像语义分割结果设置为0。

特征提取模块的卷积神经网络，特征风格随机化模块中的前向网络，特征解码模块的特征解码卷积层，一起构成眼底图像语义分割模型，是眼底图像语义分割系统中的网络结构，该网络结构统称为seg_net。

第二步：准备眼底图像数据集。REFUGE数据集(见文献“J.I.Orlando，H.Fu，etal.REFUGE Challenge：A Unified Framework for Evaluating Automated Methods forGlaucoma Assessment from Fundus Photographs[J]2020”J.I.Orlando，H.Fu等人的论文：REFUGE挑战：评估自动眼底图像青光眼诊断方法的统一框架)收集了1200张带有语义分割标注的眼底图像，是已有的最大的眼底图像语义分割数据集，从中选择包含400张眼底图像的子集(见文献“S.Wang，L.Yu，et al.Boundary and Entropy-driven AdversarialLearning for Fundus Image Segmentation[C]2018”，S.Wang，L.Yu等人的论文：用于眼底图像语义分割的边缘和熵驱动的对抗学习)，按照4∶1的比例划分为训练集T和验证集D。RIM-ONE-r3数据集(见文献“F.Fumero，S.Alayon，et al.RIM-ONE：An Open Retinal ImageDatabase for Optic Nerve Evaluation[C]，2011”F.Fumero，S.Alayon等人的论文：RIM-ONE：用于视神经诊断的开源视网膜图像数据库)包含159张眼底图像，按照BEAL中的设置(见文献“S.Wang，L.Yu，et al.Boundary and Entropy-driven Adversarial Learningfor Fundus Image Segmentation[C]2018”，S.Wang，L.Yu等人的论文：用于眼底图像语义分割的边缘和熵驱动的对抗学习)选取其中60张眼底图像作为测试集S。

第三步：使用随机梯度下降方法(SGD)对第一步眼底图像语义分割系统的网络结构进行训练，得到特征提取模块、特征风格随机化模块、特征解码模块中的网络的最佳权重参数。

方法是：

3.1初始化权重参数，将seg_net中的权重参数集合

中所有二维卷积层参数都初始化为[0，1]之间的随机数，所有批量归一化层中的均值参数初始化为0、标准差参数初始化为1。其中，

表示seg_net中特征提取模块包含的网络结构的权重参数，

表示seg_net中特征风格随机化模块包含的网络结构的权重参数，

表示seg_net中特征解码模块包含的网络结构的权重参数。

3.2设置网络训练参数，设定学习率(learning_rate)为2.5×10^-4，批处理尺寸(batch_size)记为批量维度B，B表示当前第num_batch批包含B张眼底图像，令B＝6，训练迭代轮数E为200，这样可以获得最好的眼底图像语义分割结果。

3.3初始化训练迭代参数为epoch＝1，初始化批次迭代参数num_batch＝1(表示当前批次是当前epoch内的第num_batch个批次)，定义训练集T中的眼底图像数目为num_T，则最大批次大小

表示对num_T/batch_size向上取整，因此1≤num_batch≤max_batch)。初始化损失值无下降的累计迭代数num_no-increase＝0，初始化第0轮训练的损失值Loss_pre＝0；

3.4训练眼底图像语义分割系统，方法是：将应用当前seg_net权重参数的眼底图像语义分割系统进行眼底图像语义分割得到的分割结果与实际分割结果之间的差距作为损失值，不断最小化损失值并更新seg_net的权重参数，直到满足迭代轮数E，或者出现训练终止条件(损失值＜0.01)，终止训练。每次训练的一个迭代结束后，使用验证集D的图像对当前seg_net权重参数下眼底图像语义分割系统进行验证，保存在验证集D上效果优异的seg_net的参数权重。具体方法如下：

3.4.1输入内容增强模块从训练集T中取出第num_batch批共batch_size张眼底图像。

3.4.2第num_batch批共包含B张眼底图像，将B张眼底眼底图像拼接得到四维矩阵I，I的形状为B×3×H×W，B为批量维度(表示当前第num_batch批包含B张眼底图像)，3为通道维度(输入图像包含红、绿、蓝三个通道)，H为眼底图像的高度，W为眼底图像的宽度。

3.4.3输入内容增强模块对I进行增强处理，得到具有不同风格的增强态眼底图像，再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像I_S，将I_S发送给特征提取模块；具体方法如下：

3.4.3.1输入内容增强模块的第一到第四图像增强层分别对I进行数字图像处理，第一图像增强层对I进行亮度和对比度变换处理，得到变换处理后的眼底图像I₁，第二图像增强层对I进行模糊化处理，得到模糊化处理后的眼底图像I₂，第三图像增强层对I添加高斯噪声，得到添加了高斯噪声的眼底图像I₃，第四图像增强层对I添加椒盐噪声，得到添加了椒盐噪声的眼底图像I₄。

3.4.3.2输入内容增强模块的随机空间掩码生成组件采用掩码采样方法随机地将I按照空间位置划分为四个不相交的子集，得到四个随机空间掩码，记为{M₁，M₂，M₃，M₄}，随机空间掩码互不相交，且四个随机空间掩码的并集为I对应的全部空间位置。掩码采样方法是：

3.4.3.2.1从参数为α＝1.0，β＝1.0的伽马分布(详见网页https：//baike.baidu.com/item/伽马分布/7245468)中随机采样高度比例r_h(0≤r_h≤1)，计算随机高度位置random_h，

表示对x向上取整。

3.4.3.2.2从参数为α＝1.0，β＝1.0的伽马分布中随机采样宽度比例r_w(0≤r_w≤1)，计算随机宽度位置random_w，

3.4.3.2.3在高度位置random_h处将I分为上下两个部分，再在宽度位置random_w处将两个部分各自进一步划分为左右两个部分，据此将I分为左上、左下、右上、右下四个部分，四个部分对应的空间位置掩码分别记为M₁，M₂，M₃，M₄，即为采样得到的随机空间掩码。

3.4.3.3根据随机空间掩码，输入内容增强模块中的图像混合层将I₁，I₂，I₃，I₄合成一张图像。合成方法是：

3.4.3.3.1选择I₁中M₁掩码对应的部分，作为合成图像的左上部分。

3.4.3.3.2选择I₂中M₂掩码对应的部分，作为合成图像的左下部分。

3.4.3.3.3选择I₃中M₃掩码对应的部分，作为合成图像的右上部分。

3.4.3.3.4选择I₄中M₄掩码对应的部分，作为合成图像的右下部分。

3.4.3.3.5将3.4.3.3.1-3.4.3.3.4得到的四个部分组合成新的图像，得到合成的眼底图像I_S。将I_S发送给特征提取模块。

3.4.4特征提取模块采用深度网络图像特征提取方法对I_S进行像素级别的特征提取，得到特征矩阵F，提取过程是：

3.4.4.1第一卷积模块从输入内容增强模块接收I_S，经过二维卷积、批量归一化、线性整流、最大池化得到浅层特征F_low。将F_low发送给第二卷积模块。

3.4.4.2第二卷积模块接收F_low，对F_low进行残差卷积，得到第一层残差特征F_res1。将F_res1发送给第三卷积模块。

3.4.4.3第三卷积模块接收F_res1，对F_res1进行残差卷积，得到第二层残差特征F_res2。将F_res2发送给第四卷积模块。

3.4.4.4第四卷积模块接收F_res2，对F_res2进行残差卷积，得到第三层残差特征F_res3。将F_res3发送给第五卷积模块。

3.4.4.5第五卷积模块接收F_res3，对F_res3进行残差卷积，得到第四层残差特征F_res4。将第四层残差特征F_res4作为特征矩阵F，F是四维特征矩阵(四个维度分别是：批量、通道、高度、宽度)，将F发送给特征风格随机化模块。

3.4.5特征风格随机化模块接收特征矩阵F，通过调整F的统计量，改变F的分布特征，对F进行风格建模和风格随机化：风格建模得到F的归一化的特征矩阵F_n，建模得到均值为

标准差为

均值概率分布模型

和均值为

标准差为

均值概率分布模型

风格随机化得到风格随机化的特征矩阵F_S；将F_S发送给特征解码模块；具体方法是：

3.4.5.1计算F的通道级均值μ_F如公式(1)所示：

其中F^{(n，c，h，w)}表示当F的批量维为n、通道维为c、高度维为h、宽度维为w时对应的特征值，公式(1)对F的批量、高度、宽度三个维度求平均，得到的μ_F是一个C通道的向量。

3.4.5.2计算F的通道级标准差σ_F，如公式(2)所示：

其中∈是为了避免数值计算不稳定的一个小常数(该常数取为1.0×10^-6)，公式(2)先对F批量、高度、宽度三个维度的方差求平均，然后开根号，得到的σ_F是一个C通道的向量。

3.4.5.3对F进行归一化处理，将F的每个通道数值变换到[0，1]之间，得到归一化的特征矩阵F_n，F_n＝(F-μ_F)/σ_F。

3.4.5.4建模特征的均值概率分布，建模方法是：

3.4.5.4.1计算μ_F的均值

其中

表示特征的第c个通道的均值，可从特征的通道级均值μ_F直接获取，1≤c≤C。

3.4.5.4.2计算μ_F的标准差

3.4.5.4.3将μ_F的均值概率分布表示为均值为

标准差为

的高斯分布，记为

为μ_F的概率分布模型。

3.4.5.5建模特征的标准差概率分布，建模方法是：

3.4.5.5.1计算σ_F的均值mean_σF，

其中

表示特征的第c个通道级的标准差，可从特征的通道级标准差σ_F直接获取。

3.4.5.5.2计算σ_F的均值std_σF，

3.4.5.5.3将σ_F的标准差概率分布表示为均值为

标准差为

的高斯分布，记为：

为σ_F的概率分布模型。

3.4.5.6从

中随机采样新的特征均值μ_new。

3.4.5.7从

中随机采样新的特征标准差σ_new。

3.4.5.8调整F的统计量，改变F的分布特征，对F进行风格随机化，方法为：利用新的特征均值μ_new和新的特征标准差σ_new对归一化的特征矩阵F_n进行标准化处理，得到风格随机化的特征矩阵，记为F_S，F_S＝F_n×σ_new+μ_new。将F_S发送给特征解码模块。

3.4.6特征解码模块从特征风格随机化模块接收F_S，对F_S进行特征聚合，然后利用聚合后的特征预测眼底图像语义分割结果。方法是：

3.4.6.1特征解码模块的空洞空间金字塔池化层采用特征聚合方法对F_S进行特征聚合，得到包含不同分辨率眼底图像信息的特征矩阵F_ASPP，方法是：

3.4.6.1.1第一空洞卷积层从特征风格随机化模块接收F_S，经过空洞率为1的3×3空洞卷积得到感受野大小为3×3(即每个像素点汇聚该像素及其周围8个相邻像素的信息)、空间通道数为256的第一变换特征矩阵

3.4.6.1.2第二空洞卷积层从特征风格随机化模块接收F_S，经过空洞率为12的3×3空洞卷积得到感受野大小为5×5(即每个像素点汇聚以该像素为中心的、大小为5×5的正方形区域覆盖的像素信息)、空间通道数为256的第二变换特征矩阵

3.4.6.1.3第三空洞卷积层从特征风格随机化模块接收F_S，经过空洞率为24的3×3空洞卷积得到感受野大小为7×7(即每个像素点汇聚以该像素为中心的、大小为7×7的正方形区域覆盖的像素信息)、空间通道数为256的第三变换特征矩阵

3.4.6.1.4第四空洞卷积层从特征风格随机化模块接收F_S，经过空洞率为36的3×3空洞卷积得到感受野大小为9×9(即每个像素点汇聚以该像素为中心的、大小为9×9的正方形区域覆盖的像素信息)、空间通道数为256的第四变换特征矩阵记为

3.4.6.1.5由于各空洞空间卷积处理得到的变换特征矩阵分辨率不一致，为便于聚合多个变换特征矩阵，将

利用双线性插值方法(详见文献“Smith，P.R.Bilinear interpolation of digital images[J]，1981.”Smith，P.R.的论文：数字图像的双线性插值)放大至与F_S相同的分辨率。

3.4.6.1.6将

聚合，得到空间金字塔池化的特征，记为包含不同分辨率眼底图像信息的特征矩阵F_ASPP，聚合方法为：

F_ASPP空间通道数为256。将F_ASPP发送给特征解码模块的特征解码卷积层。

3.4.6.2特征解码卷积层从空洞空间金字塔池化层接收F_ASPP，采用分割结果预测方法，根据F_ASPP进行眼底图像语义分割结果预测，得到归一化的预测概率矩阵P′：

3.4.6.2.1特征解码模块卷积层利用卷积核大小为1×1的二维卷积将F_ASPP进行线性映射，得到空间通道数为2的预测概率矩阵P。

3.4.6.2.2利用Sigmoid函数对P进行归一化处理，将P中的矩阵值缩放调整至[0，1]之间，得到归一化的预测概率矩阵P′。

3.4.7根据真实的眼底图像分割标签G计算眼底图像I分割结果的损失值Loss_I：

其中，G^{(b，c，h，w)}表示真实的眼底图像分割标签G的位置(b，c，h，w)处(b表示G的批量维度索引，1≤b≤B；c表示G的通道维度索引，1≤c≤C；h表示G的高度维度索引，1≤h≤H；w表示G的宽度维度索引，1≤w≤W)的真实的眼底图像分割标签值；P^{′(b，c，h，w)}表示位置(b，c，h，w)处的预测概率值。将第num_batch批次的损失值

设置为Loss_I，即令

3.4.8使用随机梯度下降(SGD)优化算法(见文献“Robbins H，Monro S.AStochastic Approximation Method[J].Annals of Mathematical Statistics，1951.”Robbins H，Monro S的论文：一种随机近似法)对

最小化，然后以反向传播的方式更新网络权重参数。

3.4.9令num_batch＝num_batch+1，若num_batch≤max_batch，转3.4.1继续下一个批次眼底图像的训练；若num_batch＞max_batch，转3.4.10。

3.4.10汇总当前epoch下各个批次损失值，求和之后取平均值得到当前epoch的损失值Loss_cur，

对比Loss_cur与Loss_pre：若Loss_cur＞Loss_pre，转3.4.11；若Loss_cur≤Loss_pre，则转3.4.12。

3.4.11令损失值无下降的累计迭代数num_no-increase＝num_no-increase+1，若num_no-increase可被5整除，即(num_no-increase％5)＝0，说明在当前学习率下模型达到收敛状态，此时减小学习率继续进行学习：令learning_rate＝learning_rate×0.9，令Loss_pre＝Loss_cur，转3.4.12。若num_no-increase不可被5整除，说明在当前学习率下模型仍未达到收敛状态，保持原学习率进行学习，令Loss_pre＝Loss_cur，转3.4.12。

3.4.12令epoch＝epoch+1，若epoch＞E，或者Loss_cur≤0.01，说明眼底图像语义分割系统的网络结构seg_net达到预测精度要求，训练结束，转第四步；若epoch≤E且Loss_cur＞0.01，说明当前网络结构还未收敛，继续进行训练，重新令num_batch＝1，转3.4.13。

3.4.13对当前的网络结构seg_net权重参数进行眼底图像语义分割效果的验证，方法是：

3.4.13.1初始化验证集D中眼底图像计数参数num_D＝1，令验证集D中眼底图像计数总数为max_num_D，将验证集D眼底图像“视盘”类别的Dice系数值

初始化为0，将验证集D眼底图像“视杯”类别的Dice系数值

初始化为0。

3.4.13.2特征提取模块从验证集D中提取第num_D张眼底图像II及其对应的真实眼底图像语义分割标签GG，并采用3.4.4所述的深度网络图像特征提取方法对II进行像素级别的特征提取，得到特征矩阵FF，直接发送给特征解码模块。

3.4.13.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对FF进行特征聚合，得到II的包含不同分辨率眼底图像信息的特征矩阵FF_ASPP。将FF_ASPP发送给特征解码模块的特征解码卷积层。

3.4.13.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收FF_ASPP，采用3.4.6.2所述的分割结果预测方法，根据FF_ASPP进行眼底图像语义分割结果预测，得到归一化的预测概率矩阵PP′。

3.4.13.5类别划分模块根据pP′的值判断眼底图像语义分割结果，得到预测的眼底图像语义分割结果PP_after，方法是：

3.4.13.5.1初始化预测二值矩阵P₀₁＝PP′，将预测的眼底图像语义分割结果PP_after初始化为全0矩阵。

3.4.13.5.2对P₀₁进行二值化处理：将P₀₁中大于0.75的矩阵值设置为1，否则设置为0。

3.4.13.5.3根据P₀₁的值设置PP_after，具体设置方法是：若某一像素对应的P₀₁矩阵两个通道值均为1，则该像素分割为“视杯”类别，该像素对应的PP_after矩阵值设为2；若某一像素对应的P₀₁矩阵两个通道值中只有第一个通道为1，则该像素分割为“视盘”类别，该像素对应的PP_after矩阵值设为1；除了前述两种情况外的其余像素分割为“背景”类别，像素对应的PP_after矩阵值设为0。

3.4.13.5.4得到预测的眼底图像语义分割结果PP_after，转3.4.13.6。

3.4.13.6根据PP_after和GG计算第num_D张眼底图像视杯分割及视盘分割的Dice系数，对眼底图像语义分割而言，分割结果包含2个类别，其中每个类别的Dice系数计算方式为：

(见文献“J.Bertls，T.Elebode，et al.Optimizing the DiceScore and Jaccard Index for Medical Image Segmentation：Theory&Practice[C]，2019.”J.Bertls，T.Elebode等人的论文：用于医学图像语义分割的Dice系数和Jaccard指标：理论与实践)，其中，Dice_c表示第c个类别的Dice系数；TP_c表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签为第c个类别的像素数量(即预测正确的第c个类别正例数量)；FP_c表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签不是第c个类别的像素数量(即预测错误的第c个类别负例数量)；FN_c表示预测的眼底图像语义分割结果中预测为非第c个类别且真实标签为第c个类别的像素数量(即预测错误的第c个类别正例数量)。

具体计算步骤包括：

3.4.13.6.1计算第num_D张眼底图像“视盘”类别的TP_c值，由于“视盘”类别为第1个类别，“视盘”类别的TP_c值为满足PP_after＝1且GG＝1(预测的眼底图像语义分割结果中预测为第1个类别，且真实标签是第1个类别)的像素总数，记为TP₁，即：

其中，

表示条件指示矩阵、初始化为全零矩阵，满足下标条件的条件指示矩阵值设置为1，否则设置为0。

3.4.13.6.2计算第num_D张眼底图像“视盘”类别的FP_c值，“视盘”类别的FP_c值为满足PP_after＝1且GG≠1(预测的眼底图像语义分割结果是第1个类别，但真实标签不是第1个类别)的像素数量，记为FP₁，即：

3.4.13.6.3计算第num_D张眼底图像“视盘”类别的FN_c值，“视盘”类别的FN_c值为满足PP_after≠1且GG＝1(预测的眼底图像语义分割结果不是第1个类别，但真实标签是第1个类别)的像素数量，记为FN₁，即：

3.4.13.6.4计算第num_D张眼底图像“视盘”类别的Dice系数值，记为

3.4.13.6.5计算第num_D张眼底图像“视杯”类别的TP_c值，由于“视杯”类别为第2个类别，“视杯”类别的TP_c值为满足PP_after＝2且GG＝2(预测的眼底图像语义分割结果是第2个类别，且真实标签是第2个类别)的像素数量，记为TP₂，即：

3.4.13.6.6计算第num_D张眼底图像“视杯”类别的FP_c值，“视杯”类别的FP_c值为满足PP_after＝2且GG≠2(预测的眼底图像语义分割结果是第2个类别，但真实标签不是第2个类别)的像素数量，记为FP₂，即：

3.4.13.6.7计算第num_D张眼底图像“视杯”类别的FN_c值，“视杯”类别的FN_c值为满足PP_after≠2且GG＝2(预测的眼底图像语义分割结果不是第2个类别，但真实标签是第2个类别)的像素数量，记为FN₂，即：

3.4.13.6.8计算第num_D张眼底图像“视杯”类别的Dice系数值，记为

3.4.13.6.9令

令

令num_D＝num_D+1，若num_D＜max_num_D，转3.4.13.2继续处理D中的下一张眼底图像；若num_D≥max_num_D，转3.4.13.7。

3.4.13.7令

令

计算得到

以及

计算两个Dice系数的平均值

3.4.13.8保存完成第epoch-1次训练后的seg_net的权重参数及其对应的Dice系数平均值

转3.4.1继续第epoch次训练。

第四步：从第三步中保存的多个seg_net的权重参数中选择

值最高的权重参数，加载到眼底图像语义分割系统的网络结构中，得到训练后的眼底图像语义分割系统。

第五步：训练后的眼底图像语义分割系统对用户输入的眼底图像进行预处理，并进行眼底图像语义分割，得到眼底图像的视盘及视杯分割结果，方法是：

5.1训练后的眼底图像语义分割系统接收用户输入的眼底图像I_user，直接发送到特征提取模块。

5.2特征提取模块采用3.4.4所述的深度网络图像特征提取方法对I_user进行像素级别的特征提取，得到特征矩阵F_user。

5.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对F_user进行特征聚合，得到I_user的包含不同分辨率眼底图像信息的特征矩阵UF_ASPP，将UF_ASPP发送给特征解码模块的特征解码卷积层。

5.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收UF_ASPP，采用3.4.6.2步所述的分割结果预测方法，根据UF_ASPP进行眼底图像语义分割结果预测，得到归一化的预测概率矩阵UP′，发送给类别划分模块。

5.5类别划分模块采用3.4.13.5所述的结果划分方法，根据UP′的值判断眼底图像语义分割结果，得到预测的眼底图像语义分割结果PP_user。PP_user值为0表示将眼底图像划分为“背景”类别，PP_user值为1表示将眼底图像划分为“视盘”类别，PP_user值为2表示将眼底图像划分为“视杯”类别。

采用本发明可以达到以下技术效果：

如背景技术所述，典型的领域泛化眼底图像语义分割方法需要添加额外任务，本发明在第三步中利用输入内容增强模块和特征风格随机化模块增强眼底图像语义分割系统的泛化性和Dice系数值，两个模块协作实现领域泛化眼底图像语义分割，系统在有效提升眼底图像语义分割模型泛化性能的同时，避免了引入额外的学习任务，使得本发明甚至可以部署在计算资源十分受限的小型医疗机构。

1.本发明的输入内容增强模块随机组合不同增强形态的眼底图像，模拟了不同医疗机构的眼底图像，增加了训练集数据多样性。因此，本发明通过输入内容增强模块可以避免眼底图像语义分割模型对数量较少的训练集数据产生过拟合。

2.本发明的特征风格随机化模块对眼底图像的特征矩阵进行重新归一化和标准化处理，有效实现了风格随机化。

3.本发明的特征解码模块汇聚了不同分辨率的眼底图像的特征矩阵，能够整合不同范围的眼底图像信息。因此，本发明通过特征解码模块提升了眼底图像语义分割模型对不同分辨率的眼底图像的鲁棒性。

基于上述三个模块，本发明实现了不需要添加额外任务的领域泛化眼底图像语义分割方法，采用本发明可以达到0.8369的Dice系数值，显著改进了目前眼底图像语义分割方法的性能。

附图说明

图1为本发明第一步构建的眼底图像语义分割系统逻辑结构图。

图2为本发明总体流程图。

具体实施方式

如图2所示，本发明包括以下步骤：

第一步：构建眼底图像语义分割系统。该系统如图1所示，由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成。输入内容增强模块和特征风格随机化模块有助于提升训练数据的多样性，改进眼底图像语义分割系统在作用到不同分布眼底图像数据集时的泛化性能。

特征提取模块是一个卷积神经网络，与输入内容增强模块和特征风格随机化模块相连。在训练阶段，特征提取模块从输入内容增强模块接收合成的眼底图像，为合成的眼底图像提取特征。在验证阶段或测试阶段，特征提取模块直接接收眼底图像，为眼底图像提取特征。特征提取模块由五个卷积模块构成，其中第一卷积模块由一个二维卷积层、一个批量归一化层、一个线性整流、一个最大池化层组成；二维卷积层的输入通道数为3、输出通道数为32，卷积核大小为5×5、步长为1、填充为1；最大池化层的核大小为3×3，步长为2。第一卷积模块从合成的眼底图像(训练阶段)或眼底图像(测试阶段)提取浅层特征矩阵。第二至第五卷积模块均由一个残差块组成，第二卷积模块从第一卷积模块接收浅层特征，经过残差卷积操作后得到残差特征，然后第三至第五卷积模块按顺序对残差特征进行残差卷积操作，最后，第五卷积模块输出通道数为2048的特征矩阵。在训练阶段，第五卷积模块将该特征矩阵发送给特征风格随机化模块；在验证阶段或测试阶段，第五卷积模块将该特征矩阵发送给特征解码模块。

特征风格随机化模块是一个前向网络，与特征提取模块和特征解码模块相连；特征风格随机化模块从特征提取模块接收特征矩阵，对特征矩阵进行风格化处理，得到风格随机化的特征矩阵。特征风格随机化模块由特征归一化层、特征风格采样层和特征标准化层组成。特征归一化层利用特征矩阵通道级的均值和标准差对特征矩阵进行归一化处理，得到归一化的特征矩阵。特征矩阵为四维矩阵，包括批量维度、通道维度、高度维度和宽度维度，特征风格采样层利用特征矩阵通道维度的均值建模均值高斯分布，从均值高斯分布中采样随机特征均值；同时，特征风格采样层利用特征矩阵通道维度的标准差建模标准差高斯分布，从标准差高斯分布中采样随机特征标准差。特征标准化层利用特征风格采样层得到的随机特征均值和随机特征标准差，对归一化的特征矩阵进行标准化处理，得到标准化的特征矩阵，将标准化的特征矩阵称为风格化随机化特征矩阵，并将风格随机化特征矩阵发送给特征解码模块。

特征解码模块是一个卷积神经网络，与特征风格随机化模块及特征提取模块相连。在训练阶段，特征解码模块从特征风格随机化模块接收风格随机化特征矩阵，对风格随机化特征矩阵进行特征解码，得到预测概率矩阵；在验证阶段或测试阶段，特征解码模块直接从特征提取模块接收特征矩阵，对特征矩阵进行特征解码。特征解码模块由一个空洞空间金字塔池化层和一个特征解码卷积层构成。空洞空间金字塔池化层包括四个空洞卷积层和一个加法器，第一到第四空洞卷积层的输入通道数均为2048，输出通道数均为256，卷积核大小均为3×3，步长均为1，空洞率分别为1、12、24、36，填充分别为1、12、24、36。在训练阶段，第一到第四空洞卷积层并行地从特征解码模块接收风格随机化特征矩阵，并行地对风格随机化特征矩阵进行不同空洞率的卷积操作，提取得到4个不同分辨率的输出特征，提高深度网络的分割准确率。相似地，在验证阶段或测试阶段，第一到第四空洞卷积层并行地从特征提取模块接收特征矩阵，并行地对特征矩阵进行不同空洞率的卷积操作，提取得到4个不同分辨率的输出特征。加法器对4个不同分辨率的输出特征求和，得到汇聚了不同分辨率信息的特征，称为汇聚特征矩阵，通道数为256。特征解码卷积层对汇聚特征矩阵进行特征解码，将汇聚特征矩阵的通道数降低到眼底图像语义分割的类别数量2(即视盘和视杯)，得到预测概率矩阵，发送给类别划分模块。

类别划分模块是一个无参数的前向传播模块，与特征解码模块相连，从特征解码模块接收预测概率矩阵，得到最终的眼底图像语义分割结果。

第二步：准备眼底图像数据集。REFUGE数据集收集了1200张带有语义分割标注的眼底图像，是已有的最大的眼底图像语义分割数据集，从中选择包含400张眼底图像的子集，按照4∶1的比例划分为训练集T和验证集D。RIM-ONE-r3数据集包含159张眼底图像，按照BEAL中的设置选取其中60张眼底图像作为测试集S。

方法是：

3.1初始化权重参数，将seg_net中的权重参数集合

表示seg_net中特征提取模块包含的网络结构的权重参数，

表示seg_net中特征解码模块包含的网络结构的权重参数。

表示对x向上取整。

标准差为

均值概率分布模型

和均值为

标准差为

均值概率分布模型

3.4.5.1计算F的通道级均值μ_F如公式(1)所示：

3.4.5.2计算F的通道级标准差σ_F，如公式(2)所示：

3.4.5.4建模特征的均值概率分布，建模方法是：

3.4.5.4.1计算μ_F的均值

其中

3.4.5.4.2计算μ_F的标准差

3.4.5.4.3将μ_F的均值概率分布表示为均值为

标准差为

的高斯分布，记为

为μ_F的概率分布模型。

3.4.5.5建模特征的标准差概率分布，建模方法是：

3.4.5.5.1计算σ_F的均值

其中

3.4.5.5.2计算σ_F的均值

3.4.5.5.3将σ_F的标准差概率分布表示为均值为

标准差为

的高斯分布，记为：

为σ_F的概率分布模型。

3.4.5.6从

中随机采样新的特征均值μ_new。

3.4.5.7从

中随机采样新的特征标准差σ_new。

利用双线性插值方法放大至与F_S相同的分辨率。

3.4.6.1.6将

设置为Loss_I，即令

3.4.8使用随机梯度下降(SGD)优化算法对

最小化，然后以反向传播的方式更新网络权重参数。

3.4.11令损失值无下降的累计迭代数num_no-increase＝num_no-increase+1，若num_no-increasc可被5整除，即(num_no-increase％5)＝0，说明在当前学习率下模型达到收敛状态，此时减小学习率继续进行学习：令learning_rate＝learning_rate×0.9，令Loss_pre＝Loss_cur，转3.4.12。若num_no-increase不可被5整除，说明在当前学习率下模型仍未达到收敛状态，保持原学习率进行学习，令Loss_pre＝Loss_cur，转3.4.12。

初始化为0，将验证集D眼底图像“视杯”类别的Dice系数值

初始化为0。

具体计算步骤包括：

3.4.13.6.1计算第num_D张眼底图像“视盘”类别的TP_c值，由于“视盘”类别为第1个类别，“视盘”类别的TP_c值为满足PP_after＝1且GG＝1(预测的眼底图像语义分割结果中预测为第1个类别，且真实标签是第1个类别)的像素总数，记为TP₁，即：TP₁＝

其中，

3.4.13.6.6计算第num_D张眼底图像“视杯”类别的FP_c值，“视杯”类别的FP_c值为满足PP_after＝2且GG≠2(预测的眼底图像语义分割结果是第2个类别，但真实标签不是第2个类别)的像素数量，记为FP2，即：

3.4.13.6.9令

令

3.4.13.7令

令

计算得到

以及

计算两个Dice系数的平均值

转3.4.1继续第epoch次训练。

第四步：从第三步中保存的多个seg_net的权重参数中选择

为了测试本发明的眼底图像语义分割效果，选取眼底图像语义分割中测试集S的60张眼底图像作为最终的测试集数据，对本发明进行了眼底图像语义分割的Dice数值测试，实验的系统环境为实验的系统环境为乌班图20.04版本(即Ubuntu 20.04，Linux系统的一个版本)，搭载英特尔E5-1620v4系列的中央处理器，处理频率为3.50GHz，另外配有一块英伟达GeForce RTX 3090图像处理器，CUDA核心数为10496，核心频率为210MHz，显存容量为24GB。实验时，3.2步的学习率(1earning_rate)为2.5×10^-4，批处理尺寸(batch size)为6，训练迭代轮数E为200。测试方法包括以下步骤：

测试第一步，初始化测试集S中眼底图像计数参数num_S＝1，令测试集S中眼底图像计数总数为max_num_S，将测试集S眼底图像“视盘”类别的Dice系数值初始化为

将测试集S眼底图像“视杯”类别的Dice系数值初始化为

测试第二步，特征提取模块从测试集S中提取第num_s张眼底图像III及其对应的真实眼底图像语义分割标签GGG，并采用3.4.4所述的深度网络图像特征提取方法对III进行像素级别的特征提取，得到特征矩阵FFF，直接发送给特征解码模块。

测试第三步，特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对FFF进行特征聚合，得到III的包含不同分辨率眼底图像信息的特征矩阵FFF_ASPP。将FFF_ASPP发送给特征解码模块的特征解码卷积层。

测试第四步，特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收FFF_ASPP，采用3.4.6.2所述的分割结果预测方法，根据FFF_ASPP进行眼底图像语义分割结果预测，得到归一化的预测概率矩阵PPP′，发送给类别划分模块。

测试第五步，类别划分模块采用3.4.13.5所述的结果划分方法，根据PPP′的值判断眼底图像语义分割结果，得到预测的眼底图像语义分割结果PPP_after。PPP_after值为0表示将眼底图像划分为“背景”类别，PPP_after值为1表示将眼底图像划分为“视盘”类别，PPP_after值为2表示将眼底图像划分为“视杯”类别。

测试第六步，按照3.4.13.6.1-3.4.13.6.8所述的计算方法得到第num_S张眼底图像“视盘”、“视杯”类别的Dice系数值，分别记为

测试第七步，令

令

令num_S＝num_S+1，若num_S＜max_num_S，转4.2继续处理S中的下一张眼底图像；若num_S≥max_num_S，转4.8。

测试第八步，令

令

计算得到测试集S上的视盘分割Dice系数，即

以及测试集S上的视杯分割Dice系数，即

计算两个Dice系数的平均值，记为

经过测试，本发明利用来自REFUGE数据集的训练集T和验证集D训练眼底图像语义分割系统后，在来自RIM-ONE-r3数据集的测试集上达到的Dice系数值为

在本实验环境下，由表1可见，和背景技术所述的其他方法相比，本发明提出的基于领域泛化的眼底图像语义分割方法有效改进了眼底图像语义分割效果。表2对比了采用本发明中的输入内容增强模块和特征随机风格化模块后的眼底图像语义分割效果，表2表现出本发明在同时采用输入内容增强模块和特征随机风格化模块后分割效果的优越性。

表1

表2

本发明针对的场景是一种考虑不同医疗机构数据差异性的眼底图像语义分割方法，希望利用领域泛化技术，进一步增强单个医疗机构对自身眼底图像数据特征风格的利用，使其得到的眼底图像语义分割模型在作用到不同医疗机构时能保持较高的Dice系数值。

实验表明，本发明对作用到不同医疗机构的眼底图像语义分割模型具有一定的提升效果。综合表1和表2所示，可以发现三点：

1、在输入内容增强模块的作用下(见表2)，眼底图像语义分割模型在作用到不同医疗机构时的Dice系数值有一定的提升，但是提升幅度不大。

2、在特征风格随机化模块的作用下(见表2)，眼底图像语义分割模型在作用到不同医疗机构时的Dice系数值有提升，且提升幅度大于特征风格随机化模块。

3、与目前已有的眼底图像语义分割方法相比(见表1)，本发明在Dice系数值上超过以往模型的最佳Dice系数值，即使与目前最好的模型(TASD方法)进行比较，本发明相比目前已有的眼底图像语义分割方法可以在Dice系数值上提升五个百分点左右。

随着神经网络的出现，众多模型的效果都有了质的飞跃，到达了一定的顶峰，模型效果的提升幅度也逐渐变得缓慢，往往一个有效的改进即使只能对模型的效果提升零点几个百分点，也会得到学术界的认可。同时，一些方法(如表1中的“基于测试时自适应和形状预测的眼底图像语义分割方法”)需要在系统中引入除了眼底图像语义分割任务之外的辅助任务，这些辅助任务的学习通常带来不可忽略的计算开销；与这类方法不同，和眼底图像语义分割模型的计算开销相比，本发明的输入内容增强模块和特征风格随机化模块引入的计算开销可以忽略不记。在此条件下，本发明仍然可以在目前最好模型的基础上，衡量指标数值有五个百分点的提升，证明了本发明的先进性。

因此本发明实现了利用领域泛化技术提高眼底图像语义分割的效果。

以上对本发明所提供的一种基于领域泛化的眼底图像语义分割方法进行了详细介绍。本文对本发明的原理及实施方式进行了阐述，以上说明用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通研究人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于领域泛化的眼底图像语义分割方法，其特征在于包括以下步骤：

第一步：构建眼底图像语义分割系统，眼底图像语义分割系统由输入内容增强模块、特征提取模块、特征风格随机化模块、特征解码模块、类别划分模块构成；

输入内容增强模块与特征提取模块相连，功能是预处理输入的眼底图像，由四个图像增强层和一个空间混合层构成；输入内容增强模块以输入的眼底图像为基础，得到具有不同风格的增强态眼底图像，再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像，发送给特征提取模块；

四个图像增强层利用数字图像处理技术并行对输入的眼底图像进行变换，第一到第四图像增强层分别对应四种变换操作：亮度和对比度变换、模糊化、添加高斯噪声、添加椒盐噪声；

空间混合层由随机空间掩码生成组件和图像混合层组成；随机空间掩码生成组件将一张眼底图像随机地划分为四个空间不相交的区域，得到四个不同的空间掩码，四个空间掩码两两不相交，且四个空间掩码的并集覆盖整张眼底图像对应的全部位置；图像混合层将四个空间掩码与从四个图像增强层得到的增强态眼底图像组合随机对应，并根据空间掩码位置将四张增强态眼底图像组合成为一张合成的眼底图像，将合成的眼底图像输入特征提取模块；

特征提取模块是一个卷积神经网络，与输入内容增强模块和特征风格随机化模块相连；在训练阶段，特征提取模块从输入内容增强模块接收合成的眼底图像，为合成的眼底图像提取特征；在验证阶段或测试阶段，特征提取模块直接接收眼底图像，为眼底图像提取特征；特征提取模块由五个卷积模块构成，其中第一卷积模块由一个二维卷积层、一个批量归一化层、一个线性整流、一个最大池化层组成；第一卷积模块从合成的眼底图像提取浅层特征矩阵；第二至第五卷积模块均由一个残差块组成，第二卷积模块从第一卷积模块接收浅层特征，经过残差卷积操作后得到残差特征，第三至第五卷积模块按顺序对残差特征进行残差卷积操作，第五卷积模块输出通道数为2048的特征矩阵；在训练阶段，第五卷积模块将该特征矩阵发送给特征风格随机化模块；在验证阶段或测试阶段，第五卷积模块将该特征矩阵发送给特征解码模块；

特征风格随机化模块是一个前向网络，与特征提取模块和特征解码模块相连；特征风格随机化模块从特征提取模块接收特征矩阵，对特征矩阵进行风格化处理，得到风格随机化的特征矩阵；特征风格随机化模块由特征归一化层、特征风格采样层和特征标准化层组成；特征归一化层利用特征矩阵通道级的均值和标准差对特征矩阵进行归一化处理，得到归一化的特征矩阵；特征矩阵为四维矩阵，包括批量维度、通道维度、高度维度和宽度维度；特征风格采样层利用特征矩阵通道维度的均值建模均值高斯分布，从均值高斯分布中采样随机特征均值；同时，特征风格采样层利用特征矩阵通道维度的标准差建模标准差高斯分布，从标准差高斯分布中采样随机特征标准差；特征标准化层利用特征风格采样层得到的随机特征均值和随机特征标准差，对归一化的特征矩阵进行标准化处理，得到标准化的特征矩阵，将标准化的特征矩阵称为风格化随机化特征矩阵，并将风格随机化特征矩阵发送给特征解码模块；

特征解码模块是一个卷积神经网络，与特征风格随机化模块及特征提取模块相连；在训练阶段，特征解码模块从特征风格随机化模块接收风格随机化特征矩阵，对风格随机化特征矩阵进行特征解码，得到预测概率矩阵；在验证阶段或测试阶段，特征解码模块直接从特征提取模块接收特征矩阵，对特征矩阵进行特征解码；特征解码模块由一个空洞空间金字塔池化层和一个特征解码卷积层构成；空洞空间金字塔池化层包括四个空洞卷积层和一个加法器；第一到第四空洞卷积层并行地从特征解码模块接收风格随机化特征矩阵，并行地对风格随机化特征矩阵进行不同空洞率的卷积操作，提取得到4个不同分辨率的输出特征；加法器对4个不同分辨率的输出特征求和，得到汇聚了不同分辨率信息的特征，称为汇聚特征矩阵，通道数为256；特征解码卷积层对汇聚特征矩阵进行特征解码，将汇聚特征矩阵的通道数降低到眼底图像语义分割的类别数量2，即视盘和视杯2类，得到预测概率矩阵，发送给类别划分模块；

类别划分模块是一个无参数的前向传播模块，与特征解码模块相连，从特征解码模块接收预测概率矩阵，得到最终的眼底图像语义分割结果；

特征提取模块的卷积神经网络，特征风格随机化模块中的前向网络，特征解码模块的特征解码卷积层，一起构成眼底图像语义分割模型，是眼底图像语义分割系统中的网络结构，该网络结构统称为seg_net；

第二步：准备眼底图像数据集；从REFUGE数据集选择包含400张眼底图像的子集，按照4∶1的比例划分为训练集T和验证集D；对RIM-ONE-r3数据集中的159张眼底图像进行随机排序，选取排序结果中最后60张眼底图像作为测试集S；

第三步：使用随机梯度下降方法对第一步眼底图像语义分割系统的网络结构进行训练，得到特征提取模块、特征风格随机化模块、特征解码模块中的网络的最佳权重参数；方法是：

3.1初始化权重参数，将seg_net中的权重参数集合

中所有二维卷积层参数都初始化为[0，1]之间的随机数，所有批量归一化层中的均值参数初始化为0、标准差参数初始化为1；其中，

表示seg_net中特征提取模块包含的网络结构的权重参数，

表示seg_net中特征解码模块的特征解码卷积层包含的网络结构的权重参数；

3.2设置网络训练参数，包括初始化学习率learning_rate和训练迭代轮数E，并将批处理尺寸batch_size记为批量维度B，B表示当前第num_batch批包含B张眼底图像；

3.3初始化训练迭代参数为epoch＝1，初始化批次迭代参数num_batch＝1，定义训练集T中的眼底图像数目为num_T，最大批次大小

表示对num_T/batch_size向上取整；初始化损失值无下降的累计迭代数num_no-increase＝0，初始化第0轮训练的损失值Loss_pre＝0；

3.4训练眼底图像语义分割系统，方法是：将应用当前seg_net权重参数的眼底图像语义分割系统进行眼底图像语义分割得到的分割结果与实际分割结果之间的差距作为损失值，不断最小化损失值并更新seg_net的权重参数，直到满足迭代轮数E，或者出现训练终止条件，终止训练；每次训练的一个迭代结束后，使用验证集D的图像对当前seg_net权重参数下眼底图像语义分割系统进行验证，保存在验证集D上效果优异的seg_net的参数权重；具体方法如下：

3.4.1输入内容增强模块从训练集T中取出第num_batch批共batch_size张眼底图像；

3.4.2第num_batch批共包含B张眼底图像，将B张眼底图像拼接得到四维矩阵I，I的形状为B×3×H×W，3为通道维度，H为眼底图像的高度，W为眼底图像的宽度；

3.4.3输入内容增强模块对I进行增强处理，得到具有不同风格的增强态眼底图像，再利用空间混合层将四张语义内容相同但风格不同的增强态眼底图像组合为一张合成的眼底图像I_S，将I_S发送给特征提取模块；

3.4.4特征提取模块采用深度网络图像特征提取方法对I_S进行像素级别的特征提取，得到特征矩阵F，F是四维特征矩阵，四个维度分别是：批量、通道、高度、宽度，将F发送给特征风格随机化模块；

标准差为

的均值概率分布模型

和均值为

标准差为

的均值概率分布模型

风格随机化得到风格随机化的特征矩阵F_S；将F_S发送给特征解码模块；

3.4.6特征解码模块从特征风格随机化模块接收F_S，对F_S进行特征聚合，然后利用聚合后的特征预测眼底图像语义分割结果，方法是：

3.4.6.1.1第一空洞卷积层从特征风格随机化模块接收F_S，经过空洞率为1的3×3空洞卷积得到感受野大小为3×3、空间通道数为256的第一变换特征矩阵

3.4.6.1.2第二空洞卷积层从特征风格随机化模块接收F_S，经过空洞率为12的3×3空洞卷积得到感受野大小为5×5、空间通道数为256的第二变换特征矩阵

3.4.6.1.3第三空洞卷积层从特征风格随机化模块接收F_S，经过空洞率为24的3×3空洞卷积得到感受野大小为7×7、空间通道数为256的第三变换特征矩阵

3.4.6.1.4第四空洞卷积层从特征风格随机化模块接收F_S，经过空洞率为36的3×3空洞卷积得到感受野大小为9×9、空间通道数为256的第四变换特征矩阵记为

3.4.6.1.5将

利用双线性插值方法放大至与F_S相同的分辨率，分辨率放大后的

用

表示；

3.4.6.1.6将

F_ASPP空间通道数为256；将F_ASPP发送给特征解码模块的特征解码卷积层；

3.4.6.2.1特征解码模块卷积层利用卷积核大小为1×1的二维卷积将F_ASPP进行线性映射，得到空间通道数为2的预测概率矩阵P；

3.4.6.2.2利用Sigmoid函数对P进行归一化处理，将P中的矩阵值缩放调整至[0，1]之间，得到归一化的预测概率矩阵P′；

其中，G^{(b，c，h，w)}表示真实的眼底图像分割标签G的位置(b，c，h，w)处的真实的眼底图像分割标签值；P′^{(b，c，h，w)}表示位置(b，c，h，w)处的预测概率值，b表示G的批量维度索引，1≤b≤B；c表示G的通道维度索引，1≤c≤C；h表示G的高度维度索引，1≤h≤H；w表示G的宽度维度索引，1≤w≤W；将第num_batch批次的损失值

设置为Loss_I，即令

3.4.8使用随机梯度下降优化算法对

最小化，然后以反向传播的方式更新网络权重参数；

3.4.9令num_batch＝num_batch+1，若num_batch≤max_batch，转3.4.1继续下一个批次眼底图像的训练；若num_batch＞max_batch，转3.4.10；

对比Loss_cur与Loss_pre：若Loss_cur＞Loss_pre，转3.4.11；若Loss_cur≤Loss_pre，则转3.4.12；

3.4.11令损失值无下降的累计迭代数num_no-increase＝num_no-increase+1，若num_no-increase可被5整除，则减小学习率继续进行学习：令learning_rate＝learning_rate×0.9，令Loss_pre＝Loss_cur，转3.4.12；若num_no-increase不可被5整除，令Loss_pre＝Loss_cur，转3.4.12；

3.4.12令epoch＝epoch+1，若epoch＞E，或者满足训练终止条件即Loss_cur≤0.01，说明眼底图像语义分割系统的网络结构seg_net达到预测精度要求，训练结束，转第四步；若epoch≤E且Loss_cur＞0.01，说明当前网络结构还未收敛，继续进行训练，重新令num_batch＝1，转3.4.13；

初始化为0，将验证集D眼底图像“视杯”类别的Dice系数值

初始化为0；

3.4.13.2特征提取模块从验证集D中提取第num_D张眼底图像II及其对应的真实眼底图像语义分割标签GG，并采用3.4.4所述的深度网络图像特征提取方法对II进行像素级别的特征提取，得到特征矩阵FF，直接发送给特征解码模块；

3.4.13.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对FF进行特征聚合，得到II的包含不同分辨率眼底图像信息的特征矩阵FF_ASPP；将FF_ASPP发送给特征解码模块的特征解码卷积层；

3.4.13.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收FF_ASPP，采用3.4.6.2所述的分割结果预测方法，根据FF_ASPP进行眼底图像语义分割结果预测，得到归一化的预测概率矩阵PP′；

3.4.13.5类别划分模块采用结果划分方法根据PP′的值判断眼底图像语义分割结果，得到预测的眼底图像语义分割结果PP_after，方法是：

3.4.13.5.1初始化预测二值矩阵P₀₁＝PP′，将预测的眼底图像语义分割结果PP_after初始化为全0矩阵；

3.4.13.5.2对P₀₁进行二值化处理：将P₀₁中大于0.75的矩阵值设置为1，否则设置为0；

3.4.13.5.3根据P₀₁的值设置PP_after方法是：若某一像素对应的P₀₁矩阵两个通道值均为1，则该像素分割为“视杯”类别，该像素对应的PP_after矩阵值设为2；若某一像素对应的P₀₁矩阵两个通道值中只有第一个通道为1，则该像素分割为“视盘”类别，该像素对应的PP_after矩阵值设为1；除了前述两种情况外的其余像素分割为“背景”类别，像素对应的PP_after矩阵值设为0；

3.4.13.5.4得到预测的眼底图像语义分割结果PP_after，转3.4.13.6；

其中，Dice_c表示第c个类别的Dice系数；TP_c表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签为第c个类别的像素数量；FP_c表示预测的眼底图像语义分割结果中预测为第c个类别且真实标签不是第c个类别的像素数量；FN_c表示预测的眼底图像语义分割结果中预测为非第c个类别且真实标签为第c个类别的像素数量，具体步骤包括：

3.4.13.6.1计算第num_D张眼底图像“视盘”类别的TP_c值，“视盘”类别的TP_c值为满足PP_after＝1且GG＝1的像素总数，记为TP₁，即：

其中，

表示条件指示矩阵、初始化为全零矩阵，满足下标条件的条件指示矩阵值设置为1，否则设置为0；

3.4.13.6.2计算第num_D张眼底图像“视盘”类别的FP_c值，“视盘”类别的FP_c值为满足PP_after＝1且GG≠1的像素数量，记为FP₁，即：

3.4.13.6.3计算第num_D张眼底图像“视盘”类别的FN_c值，“视盘”类别的FN_c值为满足PP_after≠1且GG＝1的像素数量，记为FN₁，即：

3.4.13.6.5计算第num_D张眼底图像“视杯”类别的TP_c值，由于“视杯”类别为第2个类别，“视杯”类别的TP_c值为满足PP_after＝2且GG＝2的像素数量，记为TP₂，即：

3.4.13.6.6计算第num_D张眼底图像“视杯”类别的FP_c值，“视杯”类别的FP_c值为满足PP_after＝2且GG≠2的像素数量，记为FP₂，即：

3.4.13.6.7计算第num_D张眼底图像“视杯”类别的FN_c值，“视杯”类别的FN_c值为满足PP_after≠2且GG＝2的像素数量，记为FN₂，即：

3.4.13.6.9令

令

令num_D＝num_D+1，若num_D＜max_num_D，转3.4.13.2继续处理D中的下一张眼底图像；若num_D≥max_num_D，转3.4.13.7；

3.4.13.7令

令

计算得到

以及

计算两个Dice系数的平均值

转3.4.1继续第epoch次训练；

第四步：从第三步中保存的多个seg_net的权重参数中选择

值最高的权重参数，加载到眼底图像语义分割系统的网络结构中，得到训练后的眼底图像语义分割系统；

5.1训练后的眼底图像语义分割系统的特征提取模块接收用户输入的眼底图像I_user；

5.2特征提取模块采用3.4.4所述的深度网络图像特征提取方法对I_user进行像素级别的特征提取，得到特征矩阵F_user；

5.3特征解码模块的空洞空间金字塔池化层采用3.4.6.1所述的特征聚合方法对F_user进行特征聚合，得到I_user的包含不同分辨率眼底图像信息的特征矩阵UF_ASPP，将UF_ASPP发送给特征解码模块的特征解码卷积层；

5.4特征解码模块的特征解码卷积层从空洞空间金字塔池化层接收UF_ASPP，采用3.4.6.2步所述的分割结果预测方法，根据UF_ASPP进行眼底图像语义分割结果预测，得到归一化的预测概率矩阵UP′，发送给类别划分模块；

5.5类别划分模块采用3.4.13.5所述的结果划分方法，根据UP′的值判断眼底图像语义分割结果，得到预测的眼底图像语义分割结果PP_user；PP_user值为0表示将眼底图像划分为“背景”类别，PP_user值为1表示将眼底图像划分为“视盘”类别，PP_user值为2表示将眼底图像划分为“视杯”类别。

2.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法，其特征在于所述特征提取模块的第一卷积模块中的二维卷积层的输入通道数为3、输出通道数为32，卷积核大小为5×5、步长为1、填充为1，第一卷积模块中的最大池化层的核大小为3×3，步长为2；所述特征解码模块的空洞空间金字塔池化层中的第一到第四空洞卷积层的输入通道数均为2048，输出通道数均为256，卷积核大小均为3×3，步长均为1，空洞率分别为1、12、24、36，填充分别为1、12、24、36。

3.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法，其特征在于3.2步所述学习率learning_rate初始化为2.5×10^-4，所述批量维度B＝6，所述训练迭代轮数E初始化为200。

4.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法，其特征在于3.4.3步所述输入内容增强模块对I进行增强处理，得到合成的眼底图像I_S的方法是：

3.4.3.1输入内容增强模块的第一到第四图像增强层分别对I进行数字图像处理，第一图像增强层对I进行亮度和对比度变换处理，得到变换处理后的眼底图像I₁，第二图像增强层对I进行模糊化处理，得到模糊化处理后的眼底图像I₂，第三图像增强层对I添加高斯噪声，得到添加了高斯噪声的眼底图像I₃，第四图像增强层对I添加椒盐噪声，得到添加了椒盐噪声的眼底图像I₄；

3.4.3.2输入内容增强模块的随机空间掩码生成组件采用掩码采样方法随机地将I按照空间位置划分为四个不相交的子集，得到四个随机空间掩码，记为{M₁，M₂，M₃，M₄}，随机空间掩码互不相交，且四个随机空间掩码的并集为I对应的全部空间位置；

3.4.3.3根据随机空间掩码，输入内容增强模块中的图像混合层将I₁，I₂，I₃，I₄合成一张图像；合成方法是：

3.4.3.3.1选择I₁中M₁掩码对应的部分，作为合成图像的左上部分；

3.4.3.3.2选择I₂中M₂掩码对应的部分，作为合成图像的左下部分；

3.4.3.3.3选择I₃中M₃掩码对应的部分，作为合成图像的右上部分；

3.4.3.3.4选择I₄中M₄掩码对应的部分，作为合成图像的右下部分；

3.4.3.3.5将3.4.3.3.1-3.4.3.3.4得到的四个部分组合成新的图像，得到合成的眼底图像I_S。

5.如权利要求4所述的一种基于领域泛化的眼底图像语义分割方法，其特征在于3.4.3.2步所述输入内容增强模块的随机空间掩码生成组件采用掩码采样方法随机地将I按照空间位置划分为四个不相交的子集，得到四个随机空间掩码的方法是：

3.4.3.2.1从参数为α＝1.0，β＝1.0的伽马分布中随机采样高度比例r_h，0≤r_h≤1，计算随机高度位置random_h，

表示对x向上取整；

3.4.3.2.2从参数为α＝1.0，β＝1.0的伽马分布中随机采样宽度比例r_w，0≤r_w≤1，计算随机宽度位置random_w，

6.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法，其特征在于3.4.4步所述特征提取模块采用深度网络图像特征提取方法对I_S进行像素级别的特征提取，得到特征矩阵F的方法是：

3.4.4.1第一卷积模块从输入内容增强模块接收I_S，经过二维卷积、批量归一化、线性整流、最大池化得到浅层特征F_low；将F_low发送给第二卷积模块；

3.4.4.2第二卷积模块接收F_low，对F_low进行残差卷积，得到第一层残差特征F_res1；将F_res1发送给第三卷积模块；

3.4.4.3第三卷积模块接收F_res1，对F_res1进行残差卷积，得到第二层残差特征F_res2；将F_res2发送给第四卷积模块；

3.4.4.4第四卷积模块接收F_res2，对F_res2进行残差卷积，得到第三层残差特征F_res3；将F_res3发送给第五卷积模块；

3.4.4.5第五卷积模块接收F_res3，对F_res3进行残差卷积，得到第四层残差特征F_res4；将第四层残差特征F_res4作为特征矩阵F。

7.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法，其特征在于3.4.5步所述特征风格随机化模块对F进行风格建模和风格随机化的方法是：

3.4.5.1计算F的通道级均值μ_F，如公式(1)所示：

其中F^{(n，c，h，w)}表示当F的批量维为n、通道维为c、高度维为h、宽度维为w时对应的特征值，μ_F是一个C通道的向量；

3.4.5.2计算F的通道级标准差σ_F，如公式(2)所示：

其中ε是为了避免数值计算不稳定的一个常数，取为1.0×10^-6，σ_F是一个C通道的向量；

3.4.5.3对F进行归一化处理，将F的每个通道数值变换到[0，1]之间，得到归一化的特征矩阵F_n，F_n＝(F-μ_F)/σ_F；

3.4.5.4建模特征的均值概率分布，建模方法是：

3.4.5.4.1计算μ_F的均值

其中

表示特征的第c个通道的均值，从特征的通道级均值μ_F直接获取，1≤c≤C；

3.4.5.4.2计算μ_F的均值

3.4.5.4.3将μ_F的概率分布表示为均值为

标准差为

的高斯分布，记为

为μ_F的概率分布模型；

3.4.5.5建模特征的标准差概率分布，建模方法是：

3.4.5.5.1计算σ_F的均值

其中

表示特征的第c个通道级的标准差，从特征的通道级标准差σ_F直接获取；

3.4.5.5.2计算σ_F的均值

3.4.5.5.3将σ_F的概率分布表示为均值为

标准差为

的高斯分布，记为：

为σ_F的概率分布模型；

3.4.5.6从

中随机采样新的特征均值μ_new；

3.4.5.7从

中随机采样新的特征标准差σ_new；

3.4.5.8调整F的统计量，改变F的分布特征，对F进行风格随机化，方法为：利用μ_new和σ_new对F_n进行标准化处理，得到风格随机化的特征矩阵F_S，F_S＝F_n×σ_new+μ_new。

8.如权利要求1所述的一种基于领域泛化的眼底图像语义分割方法，其特征在于3.4.13.6步所述根据PP_after和GG计算第num_D张眼底图像视杯分割及视盘分割的Dice系数的方法是：

其中，

3.4.13.6.5计算第num_D张眼底图像“视杯”类别的TP_c值，“视杯”类别的TP_c值为满足PP_after＝2且GG＝2的像素数量，记为TP₂，即：