CN113870270A

CN113870270A - 一种统一框架下的眼底影像视杯、视盘分割方法

Info

Publication number: CN113870270A
Application number: CN202111007110.7A
Authority: CN
Inventors: 孙光民; 张忠祥; 李煜; 郑鲲; 朱美龙; 杨静飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-31
Anticipated expiration: 2041-08-30

Abstract

本发明公开了一种统一框架下的眼底影像视杯、视盘分割方法，在分割前，获取眼底影像并其进行剪切，旋转等图像预处理操作；依据眼科医生在眼底彩照上标注的视杯、视盘区域，生成相应的掩膜图像；构建分割视杯、视盘的深度网络；利用掩码图像和眼底影像对深度分割网络进行迭代训练，优化网络参数；分割视杯、视盘,利用训练好的分割网络模型,得到视杯、视盘的分割结果。本发明提出了用于视杯、视盘分割的深度神经网络，包括：多尺度特征提取器，多尺度特征过渡和注意力金字塔结构。本发明可以对视杯视盘进行有效的分割，具有较高的分割精度，同时为眼底图像的分割及其他医学影像的分割提供了新的思路。

Description

一种统一框架下的眼底影像视杯、视盘分割方法

技术领域

本发明属于图像分割的技术领域，尤其涉及一种统一框架下的眼底影像视杯、视盘分割方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

医学图像分割是医学图像处理中的一项基本的任务，是目前医学图像处理的一个热点，精确的分割结果在临床诊断和疾病治疗方面有着非常重要的意义。医学图像分割就是在将图像中的病灶或者器官和组织从背景中提取出来。

青光眼是世界三大致盲的眼科疾病之一，它对患者视力的损伤是不可逆的。因此，早期的筛查对于预防和治疗青光眼至关重要。目前，眼底彩色图像和光学相干断层扫描(OCT)是青光眼早期筛查中应用最广泛的成像技术。与OCT相比，彩色眼底图像在青光眼检测中的应用更广泛，成本更低。眼底图像中视杯与视盘的垂直比率(CDR)是诊断是否为青光眼的一个重要指标，正常的CDR为0.3—0.4，较大的CDR可能提示患者患有青光眼疾病。然而，手工分割视杯、视盘结构会耗费眼科医生大量的精力和时间。因此，自动并且精确的视杯、视盘分割方法对青光眼的筛查具有十分重要的意义。

视杯和视盘的分割存在两个难点。首先，眼底图像中视盘区域存在大量的血管结构，容易在分割的过程中造成干扰，影响视杯、视盘的分割精度。第二个难点是在眼底图像中视盘与视杯的边界十分模糊，不利于视杯、视盘的定位，容易造成分割结果的不准确。

当前针对视盘与视杯分割的主要方法有两种,一是利用眼底图像中的颜色、梯度和纹理等特征对视杯、视盘进行分割，但是该方法容易受到眼底图像中其他生理结构的干扰。第二种是基于深度学习的方法。然而，大多数的基于深度学习的视盘和视杯分割方法，忽略了对边缘特征的保留没有将边缘信息与视杯、视盘的区域进行结合。另外，一些基于深度学习的方法仅仅对视盘进行分割，或者将视盘和视杯分别进行分割操作，忽略了视盘与视杯之间的联系。

发明内容

针对现有技术中存在的不足，本发明的第一个方面提供一种在统一框架下的眼底影像视杯、视盘分割方法。其能通过提出的多尺度特征提取器来保留视杯与视盘边缘信息。并通过注意力金字塔结构对不同尺度的特征进行融合，同时注意力金字塔采用注意力机制为眼底图像中不同的区域分配不同的权重值，从而突出视盘和视杯结构。经过迭代训练后，该方法能对视杯、视盘进行精准的分割，且不需要过多的人工干预。

本发明的第一目的是提供一种统一框架下的眼底影像视杯、视盘分割方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种统一框架下的眼底影像视杯、视盘分割方法，该方法包括：

步骤1，获取眼底影像数据集。

步骤1.1，用眼底彩色照相机获取患有青光眼病人和健康人的眼底图像。

步骤1.2，对采集的眼底图像进行预处理和图像增强，包括将眼底图像以视盘为中心剪切为800×800像素大小，同时进行随机的90度，180度和270度旋转。

步骤1.3，由经验丰富的眼科医生对眼底图像中的视杯和视盘区域进行标注，在标注时，选取不同的颜色对视杯和视盘进行区分。

步骤2，构建分割网络。

所述步骤2中本发明构建的分割网络基于编码解码结构，编码结构由多层卷积层和池化层组成，用于提取图像的特征信息，解码结构对从编码器中得到的特征进行上采样，从而获得分割图。为了达到更精准的分割效果。本发明在做了如下的三个调整：多尺度特征提取器，多尺度特征平衡和注意力金字塔结构，具体描述如下：

步骤2.1，多尺度特征提取器

本发明所提出的多特征提取器基于ResNet,包括多尺度输入金字塔和注意力融合机制。

步骤2.1.1多尺度输入金字塔

本发明将输入的眼底图像调整为512×512，256×256，128×128和64×64四种不同尺度大小。四种不同尺度的眼底图像同时输入到网络中，在ResNet的基础上，本发明构造了输入金字塔结构，来接收不同尺度的眼底图像输入。具体来说，图像大小为512×512眼底图像，仍然采用最初的ResNet中的结构，首先经过一个卷积核为7，步长为2的卷积层，然后进行正则化处理，再经过Relu激活函数得到大小为128×128，通道为64的特征图。之后，经过第一个残差结构得到大小为128×128，通道数为256的特征图，表示为c_{2_1}。对于其他3个尺度的眼底图像，分别构造卷积核为3×3，通道数分别为64，128，256的卷积层对其进行卷积操作，卷积之后经过Relu非线性操作，得到的三种不同的特征图，大小分别为128×128，64×64和32×32，通道数为64，128，256的特征图，分别表示为x₂,x₃,x₄。

步骤2.1.2，注意力融合机制

经过步骤2.1操作得到了四种不同的特征图，由于这些特征图来自不同尺度的眼底图像，它们之间具有较大的差异，如果直接进行特征的融合会削弱对特征的表达。为此本发明提出注意力融合机制来缓解特征图之间的差距。首先将c_{2_1}和x₂按照通道进行拼接，得到大小为128×128，通道数为320的特征图，表示为c_{2_2},之后对该特征图进行卷积核为3×3的卷积操作,经过Relu激活函数后，再进行组归一化(Group Normalization)，此时得到的特征图大小通道都不变。

将得到的特征图送入注意力模块，首先对特征图采用自适应平均池化，自适应池化只改变特征图的大小，通道数不变。之后特征图经过两个连续的卷积核大小为1×1的卷积操作，通过softmax函数进行激活后得到注意力矩阵，其大小为1×1,通道数为320。最后将注意力矩阵和c_{2_2}相乘得到融合后的特征图c₂,其大小仍为128×128，通道数为256。得到的特征图c₂经过第二个残差结构得到特征图c_{3_1}。和上述过程类似，c_{3_1}和x₃经过通道拼接在经过注意力融合机制之后得到特征图c₃，其大小为64×64，通道数为512。按照上述操作得到特征c₄大小为32×32，通道数为1024和大小为16×16，通道数为2048的c₅

步骤2.2，多尺度特征过渡

浅层的特征图包含图像中的边缘，目标位置等细节信息，而高层的特征图包含丰富的语义信息。如果只是将解码器中的最高层生成的特征输入到解码器中会造成特征的损失使网络捕获不到浅层的特征信息。因此本发明采用多尺度特征过渡策略，通过保留不同尺度的特征图，将编码器生成的多尺度信息输入到解码器中。具体来说，不同尺度的眼底图像经过注意力融合机制和残差结构生成c₂，c₃，c₄,c₅四种不同尺度的特征图。这四种特征图同时输入到解码器中而不是仅仅传递高层的特征图。

步骤2.3，注意力金字塔结构

金字塔结构通过聚和浅层和高层特征从而得到比较精确的分割结果，被广泛应用在图像分割中。然而，金字塔结构通过将不同层次的特征进行1×1卷积和上采样操作将不同的特征进行融合没有考虑特征之间的差异。直接融合这些特征会降低多尺度信息的表达能力。为了解决上述问题，本发明提出一种注意力金字塔结构来聚合不同的特征。多尺度特征过渡保留了四种不同的特征图：c₂，c₃，c₄，c₅，首先采用1×1的卷积对c₅进行操作，目的是减少c₅的通道数，再对其进行双线性插值操作，得到大小为32×32，通道为256的特征图，记为p_{5_1}。对p_{5_1}进行1×1的卷积和上采样操作得到大小为128×128，通道为256，记为p₅对于c₄也采用1×1的卷积操作,得到大小为32×32，通道数为256的特征图。记为p_{4_1}。将p_{5_1}和p_{4_1}相加进入注意力机制。本发明中的金字塔注意力机制基于Convolutional BlockAttention Module(CBAM)，用于平衡不同特征之间的差异。分别采用通道注意力机制和位置注意力机制对p_{5_1}和p_{4_1}相加的结果进行操作。在通道注意力中采用自适应平均池化和自适应最大池化对其进行空间维度的压缩，压缩后的特征分别进入卷积核为1×1的卷积层，得到特征图avg_out和max_out,其大小均为1×1，通道为256。最后将avg_out和max_out进行相加，经过Sigmoid函数处理后，得到了通道注意力矩阵。另外，利用特征间的空间关系生成空间注意矩阵，为了计算空间注意力，首先沿着通道维度对输入求平均值和最大值，因为沿着通道维度进行操作可以有效地突出信息区域，之后将它们连接起来生成一个有效的特征矩阵。最后经过卷积核为1×1的卷积操作和Sigmoid处理后得到位置注意力矩阵，其大小为32×32，通道数为1。最后将p_{5_1}和p_{4_1}相加的结果分别和通道注意力矩阵和位置注意力矩阵相乘，得到特征图ca和sa，大小均为32×32，通道均为256。最后将ca和sa相加，在经过双线性插值操作，得到大小为128，通道数为256的特征图，记为p₄，其他的特征图同样按照上述的方法进行特征融合。在此过程中注意力机制不仅将不同的特征进行融合，减少了特征之间的差异，同时对特征图中的不同区域赋予不同的权重信息，有助于网络对视盘视杯区域进行区分。最后分别得到了p₅,p₄,p₃,p₂四种不同的特征值，其大小均为128×128，通道数为256。

步骤3，训练分割模型。

步骤3.1本发明采用四个子输出进行深度监督。构造像素分类器对p₅,p₄,p₃,p₂进行操作，像素分类器由卷积核为1×1的卷积操作组成。经过像素分类器得到了4个子输出，记为：o₁，o₂,o₃,o₄，大小均为128×128，通道数为3。之后采用focal loss来计算子输入出与Groundtruth之间的差距：

L_sub(p_t)＝-α(1-p_t)^γlog(p_t) (公式1)

其中p_t表示每个像素的所属类别的概率值，α超参数用于调节样本中样本数量不平衡，γ超参数使网络更关注于难以区分的样本。为了更好的监督网络，同时还采用子输出融合的方式训练网络：

O＝o₁+o₂+o₃+o₄ (公式2)

其中，o₁，o₂，o₃，o₄表示子输出。

L_fusion(O)＝-β(1-O)^γlog(O) (公式3)

其中，β超参数用于调节样本中样本数量不平衡，γ超参数使网络更关注于难以区分的样本。

最后，总的损失函数为：

其中，i表示第几个子输出。N＝4表示子输出的数目。

步骤3.2：本发明使用Adam算法进行迭代优化网络中的参数，使用随机梯度下降算法训练分割网络。初始学习率为0.0001，并使用余弦学习率衰减调整学习率。

步骤4，分割视杯视盘。利用训练好的分割网络模型,得到视杯、视盘的分割结果。

本发明的有益效果：

本方法提出了一种统一框架下的眼底影像视杯、视盘分割方法:该网络通过多重损失监督，充分利用视盘和视杯之间的内在关系，从眼底图像中准确分割出视盘和视杯，而不需要过多人工的干预。

本方法提出的多尺度特征提取器，以不同尺度的眼底图像作为输入，并且将不同尺度的特征信息进行注意力融合，能够充分表达眼底图像的特征信息，特别是视盘与视杯的边缘信息。

本方法提出的注意力金字塔结构消弱了不同特征图之间的差异，将不同尺度的特征进行融合，增强对视盘和视杯的特征表达。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1视盘视杯分割的流程图

图2(a)由眼底相机获取的眼底图像

图2(b)剪切后的眼底图像

图3由眼科医生标注的视盘与视杯

图4视盘视杯分割的网络结构

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本发明的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。

实施1:

本实施例1的目的是提供一种统一框架下的眼底影像视杯、视盘分割方法。

实施方式的流程图如图1所示，包括以下步骤：

步骤S10，获取眼底图像数据集；

步骤S20，构建分割网络；

步骤S30，训练分割模型；

步骤S40，分割视杯、视盘；

实施方式的建立增强图像数据库步骤S10还包括以下步骤：

步骤S100，用眼底彩色照相机获取患有青光眼病人和健康人的眼底图像，如图2(a)，所示。

步骤S101，对采集的眼底图像进行预处理和图像增强，包括将眼底图像以视杯为中心剪切为800×800像素大小，同时进行随机的90度，180度和270度旋转，如图2(b)，所示。

步骤S102，由经验丰富的眼科医生对眼底图像中的视杯和视盘区域进行标注，在标注时，选取不同的颜色对视杯和视盘进行区分，如图3。

实施方式的构建分割网络步骤S20还包括以下步骤：

步骤S200，将输入的眼底图像调整为512×512，256×256，128×128和64×64。

步骤S201,四种不同尺度的眼底图像同时输入到网络中，基于ResNet构造多尺度特征提取器。

步骤S202，图像大小为512×512眼底图像，首先经过一个卷积核为7，步长为2的卷积层，之后进行正则化处理再经过Relu激活函数得到大小为128×128，通道为64的特征图。最后，经过第一个残差结构得到大小为128×128，通道数为256的特征图，表示为c_{2_1}。

步骤S203，分别构造卷积核为3×3，通道数分别为64，128，256的卷积层对其进行卷积操作，卷积之后经过Relu非线性操作，得到的特征图大小分别为128×128，64×64和32×32，通道数为64，128，256的特征图，分别表示为x₂,x₃,x₄。

步骤S204，经过步骤s203操作得到了四种不同的特征图，首先将c_{2_1}和x₂按照通道进行拼接，得到大小为128×128，通道数为320的特征图，表示为c_{2_2}。

步骤S205，对该特征图进行卷积核为3×3的卷积操作,经过Relu激活函数后，再进行组归一化(Group Normalization)。

步骤S206，对步骤S205得到的特征图采用自适应平均池化，自适应池化。

步骤S207，对步骤S206得到特征图经过两个连续的卷积核大小为1×1的卷积操作，通过softmax函数进行激活后得到注意力矩阵，其大小为1×1，通道数为320。

步骤S208，将经注意力矩阵和c_{2_2}相乘得到融合后的特征图c₂，其大小仍为128×128，通道数为256。

步骤S209，特征图c₂经过第二个残差结构得到特征图c_{3_1}。c_{3_1}和x₄经过通道拼接在经过注意力融合机制之后得到特征图c₃，其大小为64×64，通道数为512。按照上述操作得到特征c₄大小为32×32，通道数为1024和大小为16×16通道数为2048的c₅。

步骤S210，将不同尺度的眼底图像经过注意力融合机制和残差结构生成c₂，c₃，c₄，c₅的四种不同尺度的特征图输入到解码器中。

步骤S211，解码器接收四种不同尺度的特征图，采用1×1的卷积对c₅进行操作，目的是减少c₅的通道数，再对其进行双线性插值操作，得到大小为32×32，通道为256的特征图，记为p_{5_1}。

步骤S212，对p_{5_1}进行1×1的卷积和上采样操作得到大小为128×128，通道为256，记为p₅

步骤S213，对c₄也采用1×1的卷积操作,得到大小为32×32，通道数为256的特征图，记为p_{4_1}。

步骤S214，将p_{5_1}和p_{4_1}相加的结果输入通道注意力机制。在通道注意力中分别采用自适应平均池化和自适应最大池化对其进行空间维度的压缩，压缩后的特征分别进入卷积核为1×1的特征图，得到特征图avg_out和max_out，其大小均为1×1，通道为256。最后将avg_out和max_out进行相加，经过Sigmoid函数处理后，得到了通道注意力矩阵。

步骤S215，将p_{5_1}和p_{4_1}相加的结构输入位置注意力机制，沿着通道维度对输入求平均值和最大值，并将它们连接起来生成一个有效的特征矩阵。最后经过卷积核为1×1的卷积操作和Sigmoid处理后得到位置注意力矩阵，其大小为32×32，通道数为1。

步骤S216，将p_{5_1}和p_{4_1}相加的结果分别和通道注意力矩阵和位置注意力矩阵相乘，得到特征图ca和sa，大小均为32×32，通道均为256。

步骤S217，将ca和sa相加，在经过双线性插值操作得到大小为128×128，通道数为256的特征图，记为p₄。

步骤S218，其他的特征图分别进入通道注意力机制和位置注意力机制进行融合。最后得到了p₅，p₄，p₃，p₂四种不同的特征值，其大小均为128×128，通道数为256。

实施方式的训练分割模型步骤S30还包括以下步骤：

步骤S301，构造像素分类器对p₅，p₄，p₃，p₂进行操作，像素分类器由卷积核为1×1的卷积操作组成。经过像素分类器得到了4个子输出，记为：o₁，o₂，o₃，o₄，大小均为128×128，通道数为3。

步骤S302，采用focal loss来计算子输出与Groundtruth之间的差距：

L_sub(p_t)＝-α(1-p_t)^γlog(p_t) (公式1)

，其中p_t表示每个像素的概率值，α超参数用于调节样本中样本数量不平衡，γ超参数使网络更关注于难以区分的样本。

步骤S303，为了更好的监督网络，同时还采用子输出融合的方式训练网络：

O＝o₁+o₂+o₃+o₄ (公式2)

其中，o₁，o₂，o₃，o₄表示子输出。

L_fusion(O)＝-β(1-O)^γlog(O) (公式3)

最后，总的损失函数为：

其中，i表示第几个子输出。N＝4表示子输出的数目。

步骤S304，使用随机梯度下降算法训练分割网络。初始学习率为0.0001，并使用余弦学习率衰减调整学习率。

最后应说明的是：本方法所设计的各种参数并不适用于所有的任务，使用者需要根据实际情况对参数进行调整。另外，结合上述实施例中的基于多尺度特征分析和金字塔结构的分析方法，本发明实施例可提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上方法实施例中的视盘视杯分割方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例做出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种统一框架下的眼底影像视杯、视盘分割方法，其特征在于：该方法包括如下步骤，

步骤1，获取眼底影像数据集；

步骤2，构建分割网络；

所述步骤2中本发明构建的分割网络基于编码解码结构，编码结构由多层卷积层和池化层组成，用于提取图像的特征信息，解码结构对从编码器中得到的特征进行上采样，从而获得分割图；

步骤3，训练分割模型；

步骤4，分割视杯视盘；利用训练好的分割网络模型,得到视杯、视盘的分割结果。

2.根据权利要求1所述的一种统一框架下的眼底影像视杯、视盘分割方法，其特征在于：步骤1.1，用眼底彩色照相机获取患有青光眼病人和健康人的眼底图像；

步骤1.2，对采集的眼底图像进行预处理和图像增强，包括将眼底图像以视盘为中心剪切为800×800像素大小，同时进行随机的90度，180度和270度旋转；

3.根据权利要求1所述的一种统一框架下的眼底影像视杯、视盘分割方法，其特征在于：为了达到更精准的分割效果，在做了如下的三个调整：多尺度特征提取器，多尺度特征平衡和注意力金字塔结构，具体描述如下：

步骤2.1，多尺度特征提取器

所提出的多特征提取器基于ResNet,包括多尺度输入金字塔和注意力融合机制；

步骤2.1.1多尺度输入金字塔

将输入的眼底图像调整为512×512，256×256，128×128和64×64四种不同尺度大小；四种不同尺度的眼底图像同时输入到网络中，在ResNet的基础上，本发明构造了输入金字塔结构，来接收不同尺度的眼底图像输入；具体来说，图像大小为512×512眼底图像，仍然采用最初的ResNet中的结构，首先经过一个卷积核为7，步长为2的卷积层，然后进行正则化处理，再经过Relu激活函数得到大小为128×128，通道为64的特征图；之后，经过第一个残差结构得到大小为128×128，通道数为256的特征图，表示为c_{2_1}；对于其他3个尺度的眼底图像，分别构造卷积核为3×3，通道数分别为64，128，256的卷积层对其进行卷积操作，卷积之后经过Relu非线性操作，得到的三种不同的特征图，大小分别为128×128，64×64和32×32，通道数为64，128，256的特征图，分别表示为x₂,x₃,x₄；

步骤2.1.2，注意力融合机制

经过步骤2.1操作得到了四种不同的特征图，注意力融合机制来缓解特征图之间的差距；首先将c_{2_1}和x₂按照通道进行拼接，得到大小为128×128，通道数为320的特征图，表示为c_{2_2},之后对该特征图进行卷积核为3×3的卷积操作,经过Relu激活函数后，再进行组归一化，此时得到的特征图大小通道都不变；

将得到的特征图送入注意力模块，首先对特征图采用自适应平均池化，自适应池化只改变特征图的大小，通道数不变；之后特征图经过两个连续的卷积核大小为1×1的卷积操作，通过softmax函数进行激活后得到注意力矩阵，其大小为1×1,通道数为320；最后将注意力矩阵和c_{2_2}相乘得到融合后的特征图c₂,其大小仍为128×128，通道数为256；得到的特征图c₂经过第二个残差结构得到特征图c_{3_1}；c_{3_1}和x₃经过通道拼接在经过注意力融合机制之后得到特征图c₃，其大小为64×64，通道数为512；按照上述操作得到特征c₄大小为32×32，通道数为1024和大小为16×16，通道数为2048的c₅

步骤2.2，多尺度特征过渡

浅层的特征图包含图像中的边缘、目标位置信息，而高层的特征图包含丰富的语义信息；如果只是将解码器中的最高层生成的特征输入到解码器中会造成特征的损失使网络捕获不到浅层的特征信息；采用多尺度特征过渡策略，通过保留不同尺度的特征图，将编码器生成的多尺度信息输入到解码器中；不同尺度的眼底图像经过注意力融合机制和残差结构生成c₂，c₃，c₄,c₅四种不同尺度的特征图；这四种特征图同时输入到解码器中而不是仅仅传递高层的特征图；

步骤2.3，注意力金字塔结构

金字塔结构通过聚和浅层和高层特征从而得到比较精确的分割结果，被广泛应用在图像分割中；然而，金字塔结构通过将不同层次的特征进行1×1卷积和上采样操作将不同的特征进行融合没有考虑特征之间的差异；直接融合这些特征会降低多尺度信息的表达能力；为了解决上述问题，一种注意力金字塔结构来聚合不同的特征；多尺度特征过渡保留了四种不同的特征图：c₂，c₃，c₄，c₅，首先采用1×1的卷积对c₅进行操作，目的是减少c₅的通道数，再对其进行双线性插值操作，得到大小为32×32，通道为256的特征图，记为p_{5_1}；对p_{5_1}进行1×1的卷积和上采样操作得到大小为128×128，通道为256，记为p₅对于c₄也采用1×1的卷积操作,得到大小为32×32，通道数为256的特征图；记为p_{4_1}；将p_{5_1}和p_{4_1}相加进入注意力机制；本发明中的金字塔注意力机制基于Convolutional Block Attention Module(CBAM)，用于平衡不同特征之间的差异；分别采用通道注意力机制和位置注意力机制对p_{5_1}和p_{4_1}相加的结果进行操作；在通道注意力中采用自适应平均池化和自适应最大池化对其进行空间维度的压缩，压缩后的特征分别进入卷积核为1×1的卷积层，得到特征图avg_out和max_out,其大小均为1×1，通道为256；最后将avg_out和max_out进行相加，经过Sigmoid函数处理后，得到了通道注意力矩阵；另外，利用特征间的空间关系生成空间注意矩阵，为了计算空间注意力，首先沿着通道维度对输入求平均值和最大值，因为沿着通道维度进行操作可以有效地突出信息区域，之后将它们连接起来生成一个有效的特征矩阵；最后经过卷积核为1×1的卷积操作和Sigmoid处理后得到位置注意力矩阵，其大小为32×32，通道数为1；最后将p_{5_1}和p_{4_1}相加的结果分别和通道注意力矩阵和位置注意力矩阵相乘，得到特征图ca和sa，大小均为32×32，通道均为256；最后将ca和sa相加，在经过双线性插值操作，得到大小为128，通道数为256的特征图，记为p₄，其他的特征图同样按照上述的方法进行特征融合；在此过程中注意力机制不仅将不同的特征进行融合，减少了特征之间的差异，同时对特征图中的不同区域赋予不同的权重信息，有助于网络对视盘视杯区域进行区分；最后分别得到了p₅,p₄,p₃,p₂四种不同的特征值，其大小均为128×128，通道数为256。

4.根据权利要求1所述的一种统一框架下的眼底影像视杯、视盘分割方法，其特征在于：步骤3.1采用四个子输出进行深度监督；构造像素分类器对p₅,p₄,p₃,p₂进行操作，像素分类器由卷积核为1×1的卷积操作组成；经过像素分类器得到了4个子输出，记为：o₁，o₂,o₃,o₄，大小均为128×128，通道数为3；之后采用focal loss来计算子输入出与Groundtruth之间的差距：

L_sub(p_t)＝-α(1-p_t)^γlog(p_t) (公式1)

其中p_t表示每个像素的所属类别的概率值，α超参数用于调节样本中样本数量不平衡，γ超参数使网络更关注于难以区分的样本；采用子输出融合的方式训练网络：

O＝o₁+o₂+o₃+o₄ (公式2)

其中，o₁，o₂，o₃，o₄表示子输出；

L_fusion(O)＝-β(1-O)^γlog(O) (公式3)

其中，β超参数用于调节样本中样本数量不平衡，γ超参数使网络更关注于难以区分的样本；

最后，总的损失函数为：

其中，i表示第几个子输出；N＝4表示子输出的数目；

步骤3.2：使用Adam算法进行迭代优化网络中的参数，使用随机梯度下降算法训练分割网络；初始学习率为0.0001，并使用余弦学习率衰减调整学习率。