CN117764985B

CN117764985B - 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统

Info

Publication number: CN117764985B
Application number: CN202410144159.4A
Authority: CN
Inventors: 黄龙军; 张宁毅; 易玉根; 罗勇; 龚俊; 杜英魁
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-05-14
Anticipated expiration: 2044-02-01
Also published as: CN117764985A

Abstract

本发明涉及计算机图像处理领域，具体涉及眼底图像分割模型训练方法、设备和青光眼辅助诊断系统。在本发明中，首先设计了一种自适应全局风格对齐模块，其次提出多色彩空间融合的多尺度窗口注意力下采样方法，而且提出一种瓶颈注意力和选择性跳跃连接子模块融合多色彩空间信息，除此之外，采用了边缘感知损失。综合各个数据集的平均表现，本发明的方法具有优异的域泛化能力和鲁棒性。

Description

眼底图像分割模型训练方法、设备和青光眼辅助诊断系统

技术领域

本发明涉及计算机图像处理领域，具体涉及眼底图像分割模型训练方法、设备和青光眼辅助诊断系统。

背景技术

杯盘比（cup-disc ratio，CDR）可以根据眼底图像获得并被临床医生作为重要结构度量（structural measurements），较高的CDR意味着存在较高的青光眼风险。可以使用深度学习的图像分割方法自动计算CDR，基于U型结构的图像分割网络（U型分割网络）是当前深度视杯视盘分割方法中的主流网络。

U型分割网络包括编码器和解码器，其中，编码器通过输入原始图像并逐步下采样提取视觉特征，解码器通过接收编码器输出的视觉特征并逐步上采样生成最终视杯（opticcup，OC）和视盘（optic disc，OD）的分割图。传统U型分割网络的输入端普遍仅将RGB图像作为输入，其可能导致视杯视盘分割效果较差。

另外，除了输入信息表示限制视杯视盘分割性能外，域偏移问题是另外一个关键的挑战。

发明内容

基于此，本发明提供眼底图像分割模型训练方法、设备和青光眼辅助诊断系统，至少解决现有技术中的一个问题。

第一方面，本发明提供一种眼底图像分割模型训练方法，其包括以下步骤：

获取包含源域图像(L _s , A _s , B _s)和对应标签Mask的数据集，以及包含目标域图像(L _t , A _t , B _t)的数据集；

将所述源域图像(L _s , A _s , B _s)和目标域图像(L _t , A _t , B _t)的RGB颜色空间转换为LAB颜色空间，在LAB颜色空间内，在A通道和B通道面向目标域图像(L _t , A _t , B _t)对源域图像(L _s,A _s,B _s)执行直方图匹配，对L通道的每个像素执行自适应亮度校准，再将A通道、B通道和L通道合并后返回RGB颜色空间，得到风格对齐的源域图像和目标域图像；

构建U型分割网络，所述U型分割网络包括特征提取模块和特征融合模块，其中特征提取模块包括上采样子模块、主分支下采样子模块和两个侧分支下采样子模块，所述特征融合模块包括选择性跳跃连接子模块和瓶颈注意力子模块；

使用所述风格对齐的源域图像和目标域图像对所述U型分割网络进行训练，提取多尺度特征，并进行多色彩空间特征的信息融合；

计算所述U型分割网络的边缘感知损失，根据所述边缘感知损失更新所述U型分割网络的参数。

在一些优选的实施方式中，所述眼底图像为视觉神经头附近的感兴趣区域（ROI，Region of Interest）图像。

在一些优选的实施方式中，所述主分支下采样子模块包括两个局部窗口注意力模块；所述侧分支下采样子模块用于对每个通道进行单独的卷积操作，并对卷积操作的结果进行跨通道融合；所述上采样子模块用于执行像素重排（Pixel Shuffle）操作。第一个局部窗口注意力模块计算固定窗口大小的像素、执行自注意力分数，用于加权每个位置的像素，从而学习到视杯视盘的位置和细节信息；第二个局部窗口注意力模块在第一个局部窗口注意力模块的基础上加入了滑动窗口，从而保证获得全局的像素依赖关系。

在一些优选的实施方式中，所述在A通道和B通道面向目标域图像(L _t , A _t , B _t)对源域图像(L _s,A _s,B _s)执行直方图匹配具体为：对源域图像(L _s , A _s , B _s)A通道和B通道的每一个像素值r，根据目标域图像(L _t , A _t , B _t)A通道和B通道的每一个像素值z，执行公式（4）的映射；

其中，和/>表示A通道或B通道中源域图像与目标域图像灰度级为r和z对应的累积分布函数（CDF），Y表示色度通道，s表示源域，t表示目标域。

在一些优选的实施方式中，所述对L通道的每个像素执行自适应亮度校准具体为：对每一个源域图像(L _s , A _s , B _s)的L通道计算亮度均值L(x)，并对L通道的每个像素执行公式（6）的自适应亮度校准过程；

其中，x表示亮度通道值，γ表示用于亮度校准的gamma值。

在一些优选的实施方式中，所述多色彩空间特征的信息融合具体为：将多色彩空间特征、/>、/>在通道维度拼接成全局特征/>，如公式（7）所示；

在空间维度上执行全局注意力，并使用加法融合方式为注意力矩阵提供相对位置信息，如公式（8）所示；

其中，N表示像素数量，d表示通道数量；、/>、/>分别为可学习的参数；/>，表示根据像素之间相对位置关系构建的相对位置编码。

在一些优选的实施方式中，所述多色彩空间特征的信息融合具体为：在U型分割网络的第L层（L为正整数）上采样前，三个门控值、/>、/>通过线性层被计算用来加权三种色彩空间特征，并执行加法融合，得到记忆输出memory _L，如公式（9）和公式（10）所示；

其中，和/>是可学习的权重和偏置；/>是Sigmoid激活函数，用于将门控值缩放至0到1之间，/>、/>、/>分别表示RGB、HSV和LAB颜色空间在第L层下采样的输出特征；

上采样层在采样前，在通道维度合并当前层的记忆和上一层的输出U _L，如公式（11）所示；

其中，是可学习的权重；

对融合后的特征执行像素重排（PixelShuffle）操作，使其分辨率增加一倍、通道数减半，得到第L层选择性跳跃连接的输出，用于后续的上采样过程，如公式（12）所示；

。

在一些优选的实施方式中，所述计算所述U型分割网络的边缘感知损失具体为：根据输入的基于像素的标签Mask来计算一个与输出分辨率相等的像素权重矩阵U，其元素U _{(x , y)}表示所述像素权重矩阵中位置为(x,y)的权重值，如公式（13）所示；

其中，为表示边缘感知强度的超参数；Mask _{(x , y)}是标签Mask中位置为(x,y)的值；/>是标签Mask中以位置(x,y)为中心、周围3×3范围内的平均值，如公式（14）所示；

其中，i和j分别表示空间维度上像素的横坐标和纵坐标；

将像素权重矩阵作为交叉熵损失的空间维度权重，根据公式（15）计算边缘感知损失L _ea；

其中，H、W表示图像的高和宽；c表示图像的类别数；和/>分别表示位置(x,y)处类别c的预测值和真实值。

在一些优选的实施方式中，所述β为5，Mask _{(x , y)}为0或1。

第二方面，本发明提供一种眼底图像分割模型训练设备，其包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有指令，所述指令在被所述至少一个处理器执行时实现所述眼底图像分割模型训练方法。

第三方面，本发明提供一种眼底图像分割方法，其包括以下步骤：将包含视盘和视杯的眼底图像输入到所述眼底图像分割模型训练方法得到的眼底图像分割模型中，并由所述眼底图像分割模型输出目标图像。

第四方面，本发明提供一种眼底图像分割设备，其包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有指令，所述指令在被所述至少一个处理器执行时实现所述眼底图像分割方法。

第五方面，本发明提供一种青光眼辅助诊断系统，其包括所述眼底图像分割设备。

由于采用了以上技术方案，本发明的实施例至少具有以下有益效果：

（1）提出了一种简单且高效的自适应全局风格对齐模块，可以直接对像素操作，无需额外训练，不仅能够减少由于数据量激增带来的训练压力和时间成本，而且实际应用中图像层面的数据对齐更具可解释性；

（2）设计了一种基于多色彩空间融合的多尺度下采样方法，更丰富的输入信息能够获得更高层次的特征表示，并带来更好的性能；而且提出瓶颈注意力和选择性跳跃连接子模块，用于解决RGB信息和CNN视野有限等问题；

（3）设计了一种边缘感知损失，用于强调视杯视盘轮廓周围困难像素样本分类正确的重要性，从而提高整体分割准确率；

（4）在DGS数据集上，本发明的方法在OD和OC的dice系数评估指标上超越了现有最优方法，垂直杯盘比绝对误差δ获得了与最优方法相当的性能；在RIM数据集上，本发明的方法整体性能与最优方法相当；在REFUGE数据集上，本发明的方法与榜单最优方法性能相当；而综合其平均值表现，本发明的方法则显著优于其他最优方法，这意味着本发明的方法更具域泛化能力和鲁棒性。

附图说明

图1显示了使用三种色彩空间进行基于Canny算法的边缘检测结果。

图2显示了RGB图像改变亮度后进行基于Canny算法的边缘检测结果。

图3为使用t-SNE将输入图像信息降维至二维空间分布的散点图，其中不同形状的点表示来自不同分布的眼底图像样本。

图4显示了本发明实施例中眼底图像分割模型的整体框架。

图5显示了本发明实施例中AGSA模块的执行过程。

图6为本发明实施例中多尺度特征提取部分的子模块示意图。

图7显示了本发明实施例中瓶颈注意力子模块的执行过程。

图8显示了本发明实施例中选择性跳跃连接子模块的执行过程。

图9显示了本发明实施例中图像和标签及其对应的边缘感知图，其中越亮的位置表示关注度越高。

图10显示了本发明实施例中不同目标域的图像样本。

图11为本发明实施例中三个数据集上三种色彩空间各个通道的信息熵的箱型图。

图12显示了本发明实施例中不同模块组合模型视杯视盘分割结果与真实标注的对比，其中(a)为基础网络；(b)为在（a）基础上加入AGSA模块；(c)为在(b)基础上加入SSC和BA子模块；(d)为在(c)基础上加入边缘感知损失。

图13显示了本发明实施例中执行AGSA模块的前后对比结果，其中第一行为源域图像，第一列为目标域图像，后面第N行的第M列表示第M张源域图像经过以第N张目标域图像为输入的AGSA模块的输出。

图14为本发明实施例中源域图像、目标域图像和经过AGSA的源域图像的高维特征降维后的数据分布散点图。

图15显示了本发明实施例中源域图像、目标域图像和经过AGSA的源域图像各个通道的直方图变化。

具体实施方式

以下将对本发明的构思及产生的技术效果进行清楚、完整的描述，以充分地阐述本发明的目的、方案和效果。

由于RGB色彩空间的简单性和高计算效率，传统U型分割网络的输入端普遍仅将RGB图像作为输入。然而，RGB色彩空间受限于颜色通道高度相关的特征表示，存在一些缺陷，可以总结为以下两点：

（1）色彩表示的限制：RGB图像通过红、绿和蓝三种通道信息的线性组合表示颜色，这种强耦合的颜色信息在描述颜色表示时并不够直观，尤其是在某些图像处理任务中（颜色分割、边缘检测等）。图1显示了眼底图像在三种不同的色彩空间进行基于Canny算法的边缘检测结果，由于RGB图像的通道耦合特性，即任意通道的变化可能会影响其他通道的感知，图1中针对RGB图像的边缘检测结果对血管部分色彩和纹理的变化更加敏感；而图1中针对HSV输入图像的边缘检测结果由于分离了亮度信息，只需关注到亮度的梯度变化进而实现边缘检测，从而定位到了视盘的轮廓。

（2）色彩不变性的需求：在视杯和视盘的分割任务中，色彩不变性需求是指对于图像色彩的稳定性和一致性的要求。为了应对不同拍摄条件下眼底图像的色度和亮度差异性，对于图像的色彩不变性需求是关键的。然而，RGB色彩空间对于光照和亮度的变化比较敏感。如图2所示，对RGB图像的亮度提高一倍，使得视杯和视盘的分割Dice系数值分别从0.79和0.96降至0.67和0.74；对RGB图像的亮度减半，使得视杯和视盘的分割Dice系数值分别从0.79和0.96降至0.30和0.79；这是因为亮度的增加和减少使得图像的色彩差异减小，从而显著降低分割准确率。与之相比，HSV和LAB色彩空间能够分离色度和亮度的关系，使其对由亮度差异变化而导致的性能损害具有更强抵抗能力，这与视杯视盘分割所面临的域偏移挑战需求一致。

域偏移问题是指由于不同医疗机构、设备或不同采集条件下获取的眼底图像可能存在差异，从而导致测试时性能下降。图像差异涉及光照条件、图像质量、相机和拍摄角度等方面，是域偏移问题的根本原因。如果将眼底图像数据集的样本分布呈现在二维平面上，如图3所示，就能观察到眼底图像样本之间可能存在的信息分布差异。现有方法通过提出域适应和域泛化方法来解决域偏移问题。域适应的主要思想是将源域和目标域的数据特征映射到同一个特征空间，这样可以利用其他领域数据来增强目标领域的训练。域适应的目标是减少源域和目标域不同分布之间的差异。而域泛化则通过带标签源域数据学习一个通用的特征表示，并希望该表示也能够应用于未见过的目标域。域泛化的目标是学习域无关的特征表示。然而，现有域适应和域泛化方法均需要设置额外的训练参数和约束，且它们对齐不同分布的能力也取决于网络的拟合程度以及约束的合理性。除此之外，常见域适应和域泛化方法的训练过程引入了对抗策略，这也显著增加了训练时间并可能面临模式崩溃等问题。

为了解决上述问题，本发明提出一种自适应全局风格对齐与多色彩空间视角融合的眼底图像分割方法。首先，本发明设计了自适应全局风格对齐模块，在源域图像的色度通道面向目标域的色度通道执行直方图匹配，在源域图像的亮度通道执行自适应的Gamma校准，从而在保证内容不变的前提下通过与目标域图像的风格对齐实现域泛化。其次，本发明设计了多色彩空间融合模块，采用更加复杂的多色彩空间视角信息输入，包括RGB、HSV和LAB色彩空间，并通过瓶颈注意力子模块和选择性跳跃连接子模块分别在瓶颈层和上采样阶段融合多色彩视角特征。最后，本发明采用边缘感知损失，通过对空间维度的像素分类损失加权，从而提高视杯和视盘轮廓附近困难像素样本的分类准确率。

在本发明实施例中，眼底图像分割模型的整体框架如图4所示，自适应全局风格对齐（Adaptive Global Style Alignment, AGSA）模块用于域泛化；特征提取模块用于多色彩空间特征提取，其中主分支和上采样分别表示主分支下采样和上采样的子模块，侧分支表示侧分支下采样子模块；特征融合模块包括选择性跳跃连接（Selective SkipConnection, SSC）子模块和瓶颈注意力（Bottle Attention，BA）子模块，用于多色彩空间特征融合。

（1）自适应全局风格对齐模块

在训练和测试眼底图像分割模型时，为了单独处理亮度信息和颜色信息，将RGB颜色空间转换为LAB颜色空间，从而避免直接处理RGB信息导致的伪影和假颜色。在LAB颜色空间内，对A和B通道面向目标域图像对源域图像执行直方图匹配。给定源域图像(L _s , A _s , B _s)和目标域图像(L _t , A _t , B _t)，对源域图像A通道和B通道的每一个像素值r，根据目标域图像A通道和B通道的每一个像素值z，执行如公式（4）所示的映射：

假定源域图像归一化后的亮度均值x的合理范围在0.5左右，需要一个亮度变换函数将源域图像推向合理范围，防止过亮或者过暗的情况出现，即满足公式（5）。

故理想的γ满足公式(6)；

首先对每一个源域图像的L通道计算均值L(x)，随后对L通道的每个像素执行公式（6）的自适应亮度校准过程，最后将三个通道合并后返回RGB颜色空间。整个过程如图5所示。

在类型上，AGSA属于域泛化方法。相对于域适应方法来说，AGSA无需获得测试域的数据。相对于现有的域泛化方法来说，AGSA无需额外的训练即可实现源图像到目标图像在全局像素层面的风格对齐。在训练时对联合训练集应用能够解决域偏移导致的损失波动难以拟合问题，在测试时对测试图像应用能够解决训练图像和测试图像之间差异而导致的准确率低问题。

（2）特征提取模块

基于单一RGB输入图像的分割模型，会面临有限的颜色表征信息以及对光照变化敏感等问题。然而，其他色彩空间视角能够提供额外的优势，如HSV色彩空间能够分离色相(hue)和饱和度(saturation)，更适合表达颜色的鲜艳度、深浅等。LAB色彩空间则能够更均匀的表示颜色，使得颜色的差异更容易量化和比较。因此，在本发明实施例中，眼底图像分割模型采用了基于多色彩空间输入的特征提取策略。特征提取模块结构如图6所示，通过包含主分支下采样子模块、侧分支下采样子模块和上采样子模块的网络进行多色彩空间特征融合。

在本发明实施例中，多色彩空间信息的多尺度特征提取网络整体采用U型结构，分为上采样和下采样，其中下采样部分由一个主分支和两个侧分支组成。每层下采样会使特征分辨率减半，同时通道容量增加一倍。下采样会保留每一层特征的输出为记忆，用来支持上采样过程中的跳跃连接融合。

下采样主分支每一层的子模块结构如图6中的（a）所示。在主分支中，首先采用两个连续的局部窗口注意力模块，其中第二个局部窗口注意力会在输入前增加滑动窗口操作。其次，对特征执行像素逆重排（Pixel Unshuffle）操作用于降低特征的空间分辨率，同时通道数变换为原来的2倍。此外，相对于传统的下采样网络，丢弃了像素块嵌入操作（Patch Embedding）以及其他的池化操作，旨在最大程度保留特征信息完整性。

下采样侧分支的每一层子模块结构如图6中的（b）所示。在侧分支中，首先采用深度卷积（Depth-Wise Convolution， DepthConv），对每个通道进行单独的卷积操作。假设输入的通道数为D，那么对每个通道应用一个独立的卷积核，得到D个特征图。其次采用逐点卷积（Point-Wise Convolution, PointConv），使用1×1卷积核对深度卷积的结果进行跨通道融合。相对于主分支下采样操作和传统方法，侧分支采用深度可分离卷积在一定程度上减少了模型的参数数量，降低了计算成本。

上采样的每一层子模块结构如图6中的（c）所示。相对于传统的上采样方法，使用像素重排操作代替双线性上采样或反卷积方法，其优势在于像素重排无需学习参数且具有更轻量的范式和更高的计算效率。

（3）特征融合模块

在本发明实施例中，在高维和多尺度两个方面融合多尺度特征。首先，高维特征的融合是在瓶颈注意力（BA）层进行的。该层负责处理多色彩空间的全局信息融合，具体的过程如图7所示。

具体来说，BA首先将多色彩空间特征，/>，/>在通道维度拼接生成全局特征/>，如公式（7）所示：

随后在空间维度上执行全局注意力；根据像素之间相对位置关系构建相对位置编码，并在注意力阶段使用加法融合方式为注意力矩阵提供相对位置信息，如公式（8）所示：

其中，N表示像素数量，d表示通道数量；，/>，/>分别为可学习的参数。

在上采样阶段，设计了一种选择性跳跃连接子模块，旨在从多尺度角度融合不同层次的多色彩空间特征。该选择性跳跃连接子模块将每层下采样的输出作为记忆，基于门控机制有选择性的将多色彩空间的特征信息传递给同层的上采样子模块，过程如图8所示。

具体来说，在第L层上采样前，三个门控值、/>、/>通过线性层被计算用来加权三种色彩空间特征，最后执行加法融合得到记忆输出，如公式（9）所描述：

其中，通过公式（10）计算：

其中，和/>是可学习的权重和偏置；/>是Sigmoid激活函数，用于将门控值抑制在0到1之间。该部分输出的memory _L有选择性地筛选了每一层来自多色彩空间的有效多尺度特征。

上采样层在采样前会在通道维度合并当前层的记忆和上一层的输出U _L，如公式(11)所示：

其中，是可学习的权重。最后，对融合后的特征/>执行像素重排操作（PixelShuffle），使其分辨率增加一倍、通道数减半，得到第L层选择性跳跃连接的输出，用于后续的上采样过程，如公式（12）所示。

（4）边缘感知损失

考虑到视杯视盘分割准确率主要取决于视杯和视盘的轮廓部分，这也是分割网络面临的主要挑战，可以将它们称作困难像素。内部前景和外部背景区域像素则因为相对容易分割，可以被称为简单像素。因此为了使分割模型更加关注困难像素，本发明提出了一种边缘感知损失，旨在提高困难像素的分割准确率。具体来说，根据输入的基于像素的标签Mask来计算一个与输出分辨率相等的像素权重矩阵U，其元素U _{(x , y)}表示所述像素权重矩阵中位置为(x,y)的权重值，如公式（13）所示：

其中，为表示边缘感知强度的超参数；Mask _{(x , y)}是标签Mask中位置为(x,y)的值；/>是标签Mask中以位置(x,y)为中心、周围3×3范围内的平均值，如公式（14）所示：

将U _{(x , y)}可视化能够得到图9的结果，可以看到该像素权重矩阵的目的是加强视杯和视盘轮廓的困难像素样本的关注度。

然后，将像素权重矩阵作为交叉熵损失的空间维度权重，边缘感知损失L _ea形式如公式（15）所示：

其中，H、W表示图像的高和宽；c表示图像的类别数，图像的类别分别为背景、视杯、视盘；和/>分别表示位置(x,y)处类别c的预测值和真实值。

在本发明实施例中，眼底图像分割模型训练过程的伪代码如下：

在三个数据集上评估本发明实施例中眼底图像分割模型进行眼底图像分割的效果，这三个数据集分别为REFUGE、Drishti-GS1和RIM-ONE-r3，它们是视杯视盘分割中最常用的数据集。REFUGE全称Retinal Fundus Glaucoma Challenge，包含来自两种设备的1200张图像，其中训练集400张图像来自蔡司Visucam500眼底照相机，分辨率为2124×2056；验证集400张和测试集400张图像来自佳能CR-2相机，分辨率为1634×1634。Drishti-GS1共包含101张分辨率为2049×1759的图像，其中训练集50张，测试集51张。RIM-ONE-r3包含159张分辨率为2144×1424的立体图像，其中训练集99张，测试集60张。所有数据集均包含眼底图像和其对应的OD和OC标签。在训练过程中，使用三个数据集的合集作为联合训练集。在测试过程，在联合训练集上训练的模型被用于不同的测试集并执行评估。

本发明实施例中眼底图像分割模型在计算机中实现时采用的框架为PyTorch2.0.0版本；显卡和CPU分别为单张NVIDIA GeForce RTX 3090 和 Intel Core i9-12900KF；操作系统为Microsoft Windows Server 2022；内存大小为64G，速度为3600MHz。

采用Refuge挑战给出的常用评估方式来度量本发明实施例中眼底图像分割方法和对比方法的性能。第一个指标是视杯和视盘与真值的Dice系数(dice coefficient，DC)，该方式考虑了预测值和真实标注之间的重叠程度，值越高通常表示更好的模型性能和更准确的分割结果。DC计算如公式（16）所示：

其中，TP、FP和FN分别表示真阳(1 Positive)、假阳(0 Positive)和假阴(0Negative)的像素数量。另一个评估指标是预测值和真实标注的垂直杯盘比CDR的绝对误差δ，如公式（17）所示：

其中，垂直杯盘比CDR的计算如公式（18）所示：

其中，和/>表示视杯和视盘的垂直直径(vertical diameters)。

在训练开始前，首先对每张眼底图像对应的真实掩码标注执行霍夫圆变换(HoughCircles)，用于检测图像中的圆。再根据检测到的圆的位置和半径对原始图像进行指定尺寸的裁剪，最终生成512×512的ROI区域图像用于后续的训练。然后，ROI区域图像在训练前还会经过随机翻转、旋转、裁剪和Resize等数据增强操作。最后，为了避免反复操作和节省计算开销，AGSA模块在训练前被首先执行并存储图像文件。

输入的区域眼底图像的分辨率为512×512，网络开始时不进行Patch Embedding，初始嵌入维度为12。经过每层网络特征分辨率减半，特征最小分辨率为8×8，网络一共层。局部注意力的注意力头数量为4，局部窗口大小为8。

训练采用默认参数的Adam优化器，总共优化50000次迭代。学习率初始采用线性预热策略(Warm-up)，即学习率从初始值1e-4经过500次迭代线性增长至最大值1e-2，后续采用余弦退火(CosioneAnnealing)方式逐渐减小至0。

（a）消融实验

从联合训练集（源域）中收集了三组来自不同数据集、不同相机或者不同观感的数据集合（目标域），以求寻找到最适合作为域泛化目标的目标域。三组目标域的部分样本展示在图10中。数据域1来自REFUGE的验证集，相机为佳能CR-2相机；数据域2来自DGS数据集，30°视野；数据域3来自RIM-ONE-r3数据集，相机为尼德克AFC-210眼底照相机。在同样的配置下，使用以上三种目标域作为AGSA模块的泛化对象，执行眼底图像分割和评估，得到了如表1的结果。

表1不同目标域在DGS数据集上执行AGSA后的视杯/视盘分割结果

表2不同目标域在REFUGE数据集上执行AGSA后的视杯/视盘分割结果

表3不同目标域在RIM数据集上执行AGSA后的视杯/视盘分割结果

在表1到表3中，粗体为性能最好，加下划线为其次。

从表1到表3的结果可以看出，针对不同目标域的全局风格对齐操作对结果的影响并不大。除了RIM-ONE-r3数据集外，其他的数据集的多个评估指标波动在1%以内，这属于正常误差范围内。而RIM-ONE-r3相对较大的性能波动可能源自测试集较大的色域范围不利于对A和B通道的直方图匹配，因此获得相对差但合理的性能表现。考虑到使用数据域1作为目标域的各项评估指标平均值具有优势，最好模型使用数据域1为目标域。

为了验证自适应全局风格对齐(AGSA)模块、瓶颈注意力(BA)子模块和选择性跳跃连接(SSC)子模块的有效性，逐步增加三个模块，观察在三个数据集上整体性能的变化。

表4在DGS数据集上对三个模块的不同组合进行视杯/视盘分割的评估结果对比

/>

表5在REFUGE数据集上对三个模块的不同组合进行视杯/视盘分割的评估结果对比

表6在RIM数据集上对三个模块的不同组合进行视杯/视盘分割的评估结果对比

在表4到表6中，粗体为性能最好，加下划线为其次。

从表4到表6中的结果可以看出，1号组合在RIM数据集上的三个指标与2号组合相当，而另外两个数据集则整体较差于2号组合。2号组合相对于1号组合，同时提高了三个数据集的整体性能，尤其是δ值显著低于1号组合。这证明了AGSA模块的加入，能够摆脱视杯视盘联合分割中，单一数据集有效而其他数据集较差的性能表现（域偏移）。

3号组合和4号组合与2号组合相比，分别加入了用于多色彩空间信息融合的BA子模块和SSC子模块。这两部分结果表明，多色彩空间信息的融合能够进一步提升了整体模型在三个数据集上的性能表现，从而获得所有组合中次优的评估结果。而5号组合相对于之前的组合，采用了全部三个模块，评估结果则达到了最优。

为了减少内存负担以及避免冗余计算，骨干网路由一个主分支和两个侧分支组成，主分支使用多尺度局部窗口注意力提取特征，相对参数和计算复杂度较高。两个侧分支使用轻量级的多尺度深度可分离卷积提取特征，相对参数和计算复杂度较低。主分支被认为具有更大的信息量从而对分割起主导作用，侧分支则用来从不同视角进行特征提取弥补主分支的单一特征信息局限性缺陷。为了验证哪一种颜色空间作为主分支的检测结果最优，分别对比了不同色彩空间作为主分支输入的评估结果，如表7到表9所示：

表7在DGS数据集上以不同颜色空间为主要分支进行视杯/视盘分割的评估结果

表8在REFUGE数据集上以不同颜色空间为主要分支进行视杯/视盘分割的评估结果

表9在RIM数据集上以不同颜色空间为主要分支进行视杯/视盘分割的评估结果

在表7到表9中，粗体为性能最好，加下划线为其次。

从表7到表9的结果可以看出，在同样的配置下，使用RGB色彩空间作为主分支在三个数据集上的评估结果整体优于其他颜色空间。这证明了RGB作为主色彩空间具有一定的优势，次优的是HSV色彩空间。

为了展示三种色彩空间的信息分布差异，分别计算了三个数据集的合集上的三种色彩空间各个通道的信息熵，展示为箱型图如图11所示。图11的结果表明HSV和LAB色彩空间在表示亮度通道上的信息熵较大，而RGB色彩空间的信息熵在三个通道上均衡，更有利于作为网络的主色彩空间。此外，HSV和LAB色彩空间三个通道的信息熵分布总体离群点相对于单一RGB输入较少，这意味着使用多色彩空间信息融合方法相对于单一RGB输入更具域泛化能力。因此，本发明实施例的模型采用的RGB色彩空间作为主分支的输入，HSV和LAB色彩空间作为侧分支的输入。

边缘感知损失通过在空间维度加权像素分类损失来引导模型强调更加难分类的边缘困难像素。而权重则通过像素权重矩阵和其表示边缘感知强度的系数β决定，U通过真实标注Mask计算得到，β则是手工预设的超参数。β的设定决定了模型强调边缘的程度，为了探索β的取值，在相同配置下针对不同β值在三个数据集上执行了预测和评估。评估结果如表10到表12所示。

表10在DGS数据集上设置不同边缘感知损失权重强度的视杯/视盘分割评估结果

表11在REFUGE数据集上设置不同边缘感知损失权重强度的视杯/视盘分割评估结果

表12在RIM数据集上设置不同边缘感知损失权重强度的视杯/视盘分割评估结果

在表10到表12中，粗体为性能最好，加下划线为其次；β=0表示不使用边缘感知损失。

从表10到表12中可以看出，当β=0时，即当前分割模型没有感知边缘的能力，在三个数据集上的多项评估结果显著低于其他组（β>0）的评估结果。这表明边缘感知损失的加入能够在原有基础上提升三个数据集的多项评估表现。上述结果也说明提高分割方法在困难像素样本上的分类准确率是进一步提升视杯视盘分割性能的关键挑战。

三组数据在DGS和REFUGEs数据集上的性能表型限制在1%浮动以内。在RIM数据集上，随着β的增加，性能有下降趋势。在RIM数据集中，眼底图像具有相对高的对比度和相对明显的血管纹理特征。这表明额外强调边缘分割可能导致模型过度关注纹理细节，从而干扰视杯和视盘轮廓的分割结果。因此需要设置较低β以提高模型的鲁棒性。从平均值优势和鲁棒性的角度考虑，本发明实施例的模型采用β=5的超参数设置。

（b）定量分析

为了证明本发明提出的模型的优越性，在三个数据集上与近三年来提出的SOTA模型的多项性能指标对比，结果如表13-表15所示。

表13在DGS数据集上对本发明实施例的方法、有监督方法、域适应或域泛化方法进行视杯/视盘分割的评估结果

表14在RIM数据集上对本发明实施例的方法、有监督方法、域适应或域泛化方法进行视杯/视盘分割的评估结果

表15本发明实施例的方法、有监督方法、域适应或域泛化方法在两个数据集上进行视杯/视盘分割的平均评估结果

在表13到表15中，最后三列表示方法在两个数据集上性能指标的平均值，粗体为性能最好，加下划线为其次。

从表13到表15可以看出，在DGS数据集上，本发明实施例的方法在视杯和视盘的Dice性能指标上超越了现有最优的域适应或域泛化方法，δ性能指标与最好方法相当。在RIM数据集上，获得了与最优方法相当的性能表现。从最后三列的数据上看，本发明实施例的方法在多个数据集上同一个性能指标的平均值显著优于其他SOTA方法。这表明本发明实施例的方法具有更强的域泛化能力以及面对差异数据变化的鲁棒性。

表16在 REFUGE 数据集的视杯/视盘分割上，本发明实施例的方法和 REFUGE 挑战赛中排名靠前的方法的评估结果

在表16中，粗体为性能排名前三的结果。

从表16的结果可以看出，本发明实施例的方法与REFUGE挑战榜单上最优方法相比，视杯的分割和δ达到了最优性能，视盘分割的Dice系数达到了与最优结果相当的性能。这些实验结果证明了本发明实施例的方法的有效性和优越性。

（c）定性分析

为了直观展示各个模块对整体性能的贡献，图12展示了不同模块组合的视杯视盘分割结果与真实标注的对比。从图12的分割结果对比可以发现，基础网络由于缺乏域适应或域泛化机制和多色彩空间融合信息，存在视杯部分受色彩突变而干扰分割等问题，视盘部分分割不充分的问题。随着加入AGSA模块、SSA子模块和BA子模块后，分割不充分的问题获得了有效改善，但仍然遭受边缘细节等困难像素分割不完善问题。在图12中的(d)部分结果可以发现，与之前的组合相比，加入了边缘感知损失的网络能够更加关注视杯和视盘分割中的轮廓信息，从而获得更加平滑且精准的边缘分割效果。

为了展示本发明实施例的方法在域泛化方面的贡献，首先，图13直观展示了给定源域图像和目标域图像，执行AGSA模块的前后对比结果。从图13可以直观看出，经过AGSA模块处理输出图像在内容上保持与源域图像一致，而风格上则向目标域图像靠近，并且不会产生额外的伪影和假颜色。这样可以保证在训练过程中，视杯视盘分割不会因为图像风格的变化而导致的难以拟合的问题。而且在测试时执行AGSA模块，也可以保证训练集和测试集的差异较小。

其次，通过t-SNE模型将源域图像、目标域图像和经过AGSA的图像的高维特征降维到三维空间观察数据集分布情况，如图14所示。从源域图像高维特征的数据分布可以看出，源域图像存在许多距离较远的样本，即为域偏移问题的本质。而目标域图像和经过AGSA模块之后的源域图像的高维特征数据分布则更加集中，这证明了AGSA模块的域泛化能力。

最后从源域图像集合、目标域图像集合随机选取一张图像，如图15第一行第一张图和第二张图所示。面向目标域图像对源域图像执行AGSA得到域泛化之后的结果，如图15第一行第三张图所示。并展示源域图像、目标域图像和对齐后的图像在LAB色彩空间三个独立通道的直方图变化，如图15的直方图部分所示。在A通道和B通道上，AGSA使源域图像的分布在不改变整体分布趋势的前提下向目标域图像靠近，这样能迫使源域图像保持内容不变但是风格接近目标域图像。在L通道上，AGSA使源域图像的分布迫近一个均值为亮度中心值的钟形分布，这样能够防止过暗或者过亮的图像影响分割结果。这些结果证明了AGSA模块能够保证内容不变的前提下，通过变换输入图像到任意目标域图像的风格，从而有效解决视杯视盘分割任务中存在的域偏移问题。

综上所述，本发明提出了一种新颖的视杯视盘分割方法，显著提升了视杯视盘的分割准确率和域泛化能力。首先，设计了一种自适应全局风格对齐模块，旨在通过色彩通道上直方图匹配和亮度通道上的自适应校准，缩小源域图像与目标域图像的分布差异，从而避免域偏移导致的性能下降问题。域泛化实验表明，经过AGSA模块的高维特征分布更加集中，源域图像的各通道直方图在不改变对比度趋势的前提下向目标域图像接近；这意味着能够保证在内容不变的前提下实现了源域与目标域的风格对齐，并且避免了传统域适应或域泛化方法中的额外训练负担。其次，为了充分利用RGB、HSV和LAB色彩空间，提出多色彩空间融合的多尺度窗口注意力下采样方法。而且，提出一种瓶颈注意力子模块和选择性跳跃连接子模块融合多色彩空间信息。实验表明，利用多色彩空间输入能够获得更复杂且高效的特征表示有助于提升分割性能。除此之外，由于RGB色彩空间更均衡的通道信息熵分布，作为主色彩空间能够获得更优结果。最后，提出了一种边缘感知损失，旨在解决视杯视盘轮廓附近较难预测的困难像素的分类准确率。实验表明，边缘感知损失的引入显著提升了整体分割准确率。在DGS、RIM和REFUGE数据集上的广泛实验证明。本发明的方法在Dice系数和垂直杯盘比误差等评估指标上获得了与最优方法相当甚至超越的性能表现。综合各个数据集的平均表现，本发明的方法在域泛化能力和鲁棒性方面显著优于其他方法。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同或等同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内，其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种眼底图像分割模型训练方法，其特征在于，包括以下步骤：

获取包含源域图像和对应标签的数据集，以及包含目标域图像的数据集；

将所述源域图像和目标域图像的RGB颜色空间转换为LAB颜色空间，在LAB颜色空间内，在A通道和B通道面向目标域图像对源域图像执行直方图匹配，对L通道的每个像素执行自适应亮度校准，再将A通道、B通道和L通道合并后返回RGB颜色空间，得到风格对齐的源域图像和目标域图像；

计算所述U型分割网络的边缘感知损失，根据所述边缘感知损失更新所述U型分割网络的参数，得到眼底图像分割模型；

其中，所述计算所述U型分割网络的边缘感知损失具体为：根据输入的基于像素的标签Mask来计算一个与输出分辨率相等的像素权重矩阵U，其元素U _{(x , y)}表示所述像素权重矩阵中位置为(x , y)的权重值，如公式（13）所示；

其中，为表示边缘感知强度的超参数；Mask _{(x , y)}是标签Mask中位置为(x , y)的值；是标签Mask中以位置(x , y)为中心、周围3×3范围内的平均值，如公式（14）所示；

其中，i和j分别表示空间维度上像素的横坐标和纵坐标；

其中，H、W表示图像的高和宽；c表示图像的类别数；和/>分别表示位置(x , y)处类别c的预测值和真实值。

2.根据权利要求1所述的方法，其特征在于，所述在A通道和B通道面向目标域图像对源域图像执行直方图匹配具体为：对源域图像A通道和B通道的每一个像素值r，根据目标域图像A通道和B通道的每一个像素值z，执行公式（4）的映射；

其中，和/>表示A通道或B通道中源域图像与目标域图像灰度级为r和z对应的累积分布函数，Y表示色度通道，s表示源域，t表示目标域。

3.根据权利要求2所述的方法，其特征在于，所述对L通道的每个像素执行自适应亮度校准具体为：对每一个源域图像的L通道计算亮度均值L(x)，并对L通道的每个像素执行公式（6）的自适应亮度校准过程；

其中，x表示亮度通道值，γ表示用于亮度校准的gamma值。

4.根据权利要求1所述的方法，其特征在于，所述多色彩空间特征的信息融合具体为：将多色彩空间特征、/>、/>在通道维度拼接成全局特征，如公式（7）所示；

其中，N表示像素数量，d表示通道数量；、/>、/>为可学习的参数；/>，表示根据像素之间相对位置关系构建的相对位置编码。

5.根据权利要求4所述的方法，其特征在于，所述多色彩空间特征的信息融合具体为：在U型分割网络的第L层上采样前，三个门控值、/>、/>通过线性层被计算用来加权三种色彩空间特征，并执行加法融合，得到记忆输出memory _L，如公式（9）和公式（10）所示；

其中，和/>是可学习的权重和偏置；/>是Sigmoid激活函数，用于将门控值抑制在0到1之间，/>、/>、/>分别表示RGB、HSV和LAB颜色空间在第L层下采样的输出特征；

其中，是可学习的权重；

对融合后的特征执行像素重排操作，使其分辨率增加一倍、通道数减半，得到第L层选择性跳跃连接的输出，用于后续的上采样过程，如公式（12）所示；

。

6.一种眼底图像分割模型训练设备，其特征在于，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有指令，所述指令在被所述至少一个处理器执行时实现根据权利要求1所述的方法。

7.一种眼底图像分割方法，其特征在于，包括以下步骤：将包含视盘和视杯的眼底图像输入到根据权利要求1所述的方法得到的眼底图像分割模型中，并由所述眼底图像分割模型输出目标图像。

8.一种眼底图像分割设备，其特征在于，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有指令，所述指令在被所述至少一个处理器执行时实现根据权利要求7所述的方法。

9.一种青光眼辅助诊断系统，其特征在于，包括根据权利要求8所述的眼底图像分割设备。