CN114663440A

CN114663440A - 一种基于深度学习的眼底图像病灶分割方法

Info

Publication number: CN114663440A
Application number: CN202210293140.7A
Authority: CN
Inventors: 郭恒睿; 周贺凯; 余天; 曹恩苓; 周雨
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-24

Abstract

本发明涉及一种基于深度学习的眼底图像病灶分割方法，属于医学影像领域。该方法包括：S1：使用眼底图像作为原始数据集，并采用SMOTE增强原始数据集，分为训练集和验证集；S2：采用U‑Net网络结构作为框架，编码器由Swin‑Transformer构成，解码器部分由DUpsampling模块构成；S3：使用残差网络结构改进编码器部分；S4：训练改进后的U‑Net网络，使用log‑cosh dice loss损失函数来计算病症分割的损失值；S5：根据优化后的U‑Net网络模型，输入测试眼底图像数据，输出病征分割图像。本发明能提高眼底图像细节特征捕捉能力，图像分割的效率和准确性。

Description

一种基于深度学习的眼底图像病灶分割方法

技术领域

本发明属于医学影像领域，涉及一种基于深度学习的眼底图像病灶分割方法。

背景技术

眼底图像能够反映眼底组织结构，是眼底检查中最常用的手段之一。但是，大量的眼底图像筛查为医生带来较大的工作负担，并且在病灶较小或医生专业知识水平程度不同的情况下，容易忽略已有病征。人工智能算法已广泛应用于医学领域，通过融合专家智能的顶层算法设计可以实现眼底图像病征自动识别与定量分析，使眼底图像分析更加科学化、智能化和自动化。

全卷积神经网络能直接从输入端到输出端得到分割结果，且能够实现输入和输出都是以图像作为信息处理源和接受源。但是因为图像还原过程中的步骤较为简单，导致分割结果并不是那么精细，在对象边缘的分割比较模糊。2015年，Olaf Ronneberger等人通过跳层连接和精细全卷积神经网络的解码阶段提出了一种新的网络和训练策略。该网络的形状类似字母“U”所以被称为U-Net。U-Net网络已被广泛应用到图像分割中，尤其在医学图像精细化分割任务取得了具有明显优势的精准率。网络采用编码器进行特征提取，使用两个3×3卷积操作，每个卷积操作后利用ReLU进行启动，再使用核为2×2最大池化缩小特征图尺寸。当进行上述操作四次后，特征图的大小缩小为原来的16倍。解码阶段，使用步长为2的反卷积扩大特征图，得到的特征图与特征提取阶段对应的特征图进行拼接，后续操作同特征提取阶段，使用两个3×3的卷积操作进行特征提取，并使用ReLU激活函数进行激活。图像输出阶段，对二分类的任务使用Sigmoid启动函数，多分类利用Softmax启动函数进行激活，之后输出分割图。U-Net由跳层连接融合深层的语义信息和浅层的位置信息，最终提升图像分割准确度。但是，U-Net网络存在有效卷积增加了模型设计的难度和普适性，Feature Map合并之前的裁边操作更是十分复杂因为其通过裁边的形式和Feature Map并不是对称的，而我们使用的病灶分割算法使用了same卷积简化了这一过程使其对样本的分割更加便捷。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度学习的眼底图像病灶分割方法，在分割网络模型设计中采用优化的U-Net网络结构框架，提高眼底图像细节特征捕捉能力，提高图像分割的效率和准确性，为后续眼底图像分析奠定基础。

为达到上述目的，本发明提供如下技术方案：

一种基于深度学习的眼底图像病灶分割方法，包括以下步骤：

S1：使用眼底图像作为原始数据集，并采用SMOTE增强原始数据集，分为训练集和验证集，其中病征数据与正常数据的比例为1:1；

S2：采用U-Net网络结构作为框架，编码器由Swin-Transformer构成，解码器部分由DUpsampling模块构成；

S3：使用残差网络结构改进编码器部分，得到改进后的U-Net网络；

S4：训练改进后的U-Net网络，使用log-cosh dice loss损失函数来计算病症分割的损失值，从而得到优化后的U-Net网络模型；

S5：根据优化后的U-Net网络模型，输入测试眼底图像数据，输出病征分割图像。

进一步，步骤S2中，使用U-Net网络结构作为架构，U-Net网络是U型对称结构，包含下采样(Down-sampling)模块和上采样(Up-sampling)模块。Down-sampling用来逐步显露环境信息，即卷积层，而Up-sampling的过程是结合Down-sampling各层信息和Up-sampling入录信息来获取更多信息，用于复原采样信息，即采样层，并且增强图像准确度。

本发明中编码器由Swin-Transformer构成，Swin-Transformer结构一般会有四层，第一层开始阶段会将CT图像分割为4个区块，每个区块通过补丁分区来缩小输入特征图的分辨率，再嵌入向量到下一个Swin-Transformer分区，利用二维卷积层的方法，每经过一次这样的Down-sampling过程，空间深度积为原来的四分之一，通道数变为原来的四倍，再又一个MLP缩减一半，经上述变化得到每经历一层，总数据量变为原来的二分之一。

本发明中解码器部分由DUpsampling模块实现，可以使用任意的特征聚合来尽可能地提高分割性能，采用空洞卷积算法在扩张特征图感受野的同时保持一个尺寸较大的特征图，DeeplabV3+进一步应用了编解码的架构思想来尽量避免这个问题带来的精度损失，其将CNN作为编码模块，从最先的CT图像经过3×3下卷积操作生成一张低分辨率的特征图像，然后运用解码器模块通过3×3上卷积操作还原特征图原分辨率，并且融合浅层特征用于获得拥有更加精度向量特征的预测结果，一般包含多次3×3卷积操作和一次双线性插值上采样。利用DUpsampling，避免解码器缩减步长带来的计算量和内存的占用，首先定义

为解码器输出，Y＝[0,1,2,…,C]^H×W为人工标注掩码，C和

分别表示分割的类别和最终输出的通道数，W和

分别表示DUpsampling的重建反投影矩阵和DUpsampling的重建投影矩阵，H和

分别表示水平子窗口网格大小和垂直子窗口网格大小，F通常比Y小16倍或32倍，通过以下公式(1)计算的L(F,Y)代替双线性插值：

L(F,Y)＝Loss(softmax(DUpsample(F)),Y) (1)

其中，L(F,Y)表示单一数据线性上采样，DUpsample(F)表示将卷积参数放置于W中存储通过线性上采样，该方式可以应用于所有的特征

里；

其中，T表示温度参数，Z_i表示锐化的自适应温度激活函数值，j表示自适应温度激活参数；(2)式中使用softmax函数，在其中增加了一个参数温度T，以达到在各个类上的概率分布更加柔化的效果，实现自适应温度速度而无需引入额外的超参数。

通过专注于融合一个层次的低级特征扩展到多层次的融合，使性能进一步提高，如下列公式(3)，其中f表示一个CNN，Upsample通常是双线性的，利用concat运算符将其串联。由于f是一个CNN，其计算量取决于输入的空间大小使解码器在计算上不充分，为了获得更高的分辨率解码器只能选择用高分辨率的低层次特征进行特征聚合。相反地，采用Down-sampling双线性，如公式(4)，尽可能地提高分割性能。

F＝f(concat(F_i,upsample(F_last))) (3)

F＝f(concat(F_i,downsample(F_last))) (4)

进一步，步骤S3中，使用残差网络结构改进编码器部分，具体包括：首先残差网络残差块使用表达式如下：

x_l+1＝x_l+F(x_l,W_l) (5)

其中，F(x_l,W_l)是残差部分，x_l表示浅层单元l的特征，l表示任意深度单元，一般由两个或者三个卷积操作构成，在卷积网络中x_l和x_l+1的特征图数不一致，所以需要再做1×1的卷积升维或降维处理，此时表达为：

x_l+1＝h(x_l)+F(x_l,W_l) (6)

使用L表示在任一单位内累积的各个残差块特征之和，表达式为：

从导数链式的法则中可以得到，x_l的梯度应利用偏导数转化的损失函数表达，这里损失函数使用ε来表示：

从数据不等式的理论中可以得到，CT图像信息在传导途中由于层数会逐渐得增多，会愈来愈少，而利用直接映射，网络中的后一层网络所拥有的CT图像信息一定比该层所拥有的CT图像信息要涵盖得更多。

进一步，步骤S4中，log-cosh dice loss损失函数是Cosh(x)函数和Log(x)函数的合并，并引入Dick系数，表达式为：

L_lc-dce＝log(cosh(DiceLoss)) (9)

其中，L_lc-dce表示log-cosh dice loss损失函数；Cosh(x)函数的表达式为：

log-cosh dice loss属于区域损失类，通过应用于平滑化曲线函数(10)，采集倾斜数据集。

本发明的有益效果在于：

(1)本发明采用Swin transformer对图像分割，能提高感受野的作用。

(2)本发明的解码器部分采用DUpsampling模块，能够避免在上采样过程中对低分辨率的深层特征进行处理，能够使解码器模块的计算量大幅降低。

(3)本发明采用的残差网络结构，能够对编码器部分进行一定程度上的优化，相比于较浅的网络，较深的网络识别效果反而更差。残差网络的存在，可以使信息在向前向后传播的过程中更加流畅，有利于编码器的编码操作，使信号源失真度更小，提升图像分割的精度。

(4)本发明中的损失函数的存在是对整体模型进行拟合和优化。通过引入Dick系数，构成新的log-cosh dice loss损失函数，增加更多的度量元素来提升分割性能，因为Dick系数可以从数学表示和函数模型上定性定量地对分割结果有一个较为准确的表示，来供技术人员作为技术指标。但是由于其非凸性，它多次都无法获得最佳结果。相较于传统的损失函数，本发明所用的损失函数能更好的符合发明用途，对样本的模拟性更好，能最大程度地优化发明算法。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于深度学习的眼底图像病灶分割方法的总体流程示意图；

图2为本发明分割网络模型结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

图像分割是近年来计算机视觉图像处理的重要步骤，也是非常前沿和具有发展前景的研究方向。目前，也有许多基于U-Net改进的语义分割方法，针对图像分割处理方法，我们提出了基于U-Net网络结构框架的图像分割算法，并且最终通过一段代码，写入主程序中，当输入CT图像的图片时，直接输出分割图像。该算法主要包含两个部分：一个是使用U-Net网络架构进行图像分割处理，从主体上实现图像分割；另一个就是使用残差网络结构和log-cosh dice loss损失函数以增加模块的分割性能。本发明所采用的U-Net网络架构框架图见图1。首先构造U-Net网络结构，其中编码器由Swin-Transformer构成，解码器由上采样模块构成即将特征图的分辨率还原到原始图片的分辨率大小。对于编码器部分，使用残差网络结构对编码器的性能进行改进优化。使用log-cosh dice loss损失函数以达到增强分割图形性能的目的。相比于其它的以U-Net网络为基础的图像分割算法，例如SegNet、TernausNet等算法。本发明的算法在处理速度方面上有巨大的提升，并且在不显著增加计算成本的情况下，能较高程度地提升网络深度，改善图像的精确度，有效地提升对小物体的识别能力。

请参阅图1～图2，本发明所使用的算法模型主要包括以下几个步骤：

S1：使用的分割数据集为眼底病灶分割，在本发明中，为了保证不同类别数据的平衡，采用SMOTE增强原始数据集，训练集和验证集中病征数据与正常对照组的比例为1：1；

S2：在U-Net网络结构作为框架，编码器由Swin-Transformer构成，解码器部分由DUpsampling上采样模块构成；

S3：使用残差网络结构改进编码器部分；

S4：训练网络时，使用log-cosh dice loss损失函数增加分割模型性能；

S5：根据优化后网络模型，输入测试眼底图像数据，输出病征分割图像。

步骤S1具体为：采用SMOTE采样算法对数据集进行预处理，增强数量较少类别的数据，对这部分数据集首先中每一个样本计算它到该类数据集中所有样本的距离，得到其k近邻。然后，根据样本不平衡比例设置一个采样比例以确定采样倍率，并对每一个该类样本，从其k近邻中随机选择采样比例个近邻。最后，构建的新的样本x_i-new＝x_i+η(x_i(nn)-x_i)，其中x_i为原样本，x_i(nn)为每一个随机选出的近邻样本，为η一个0到1之间的随机数。

步骤S2具体为：U-Net网络是U型对称结构，包含下采样(Down-sampling)模块和上采样(Up-sampling)模块组成的网络结构。下采样也叫做抽取目的是抽取特征图片的，即卷积层，而Up-sampling的过程是结合Down-sampling各层信息和Up-sampling的输入信息来还原详细信息，即采样层，并且逐步还原图像准确度。本发明使用Swin-Transformer构成U-Net网络结构的编码器部分。Swin transformer是微软提出的利用transformer架构处理计算机视觉任务的模型。不仅具有Transformer能够对全局信息进行建模的能力，还能采用移动窗口的方式实现跨窗口连接，使模型能够捕获到相邻窗口的有关信息，从而可以实现不同窗口间的数据互连和反馈，从一定程度上扩展了接受源的范围和信息采样点的数量，从而提升采样捕获率，提高了编码器的效率。这种滑动窗口协议，具有分层次的设计，其中滑动窗口操作包括不重叠的局部窗口，和重叠的十字窗口。在各个窗口中计算各自的计算结果，这样做的好处是既能引入卷积神经网络操作的可靠性，另一方面能节省计算量。

整个模型采取层次化的设计，一共有4个步骤，每一步中，通过拼接块图的方式来降低输入特征图的分辨率，通过逐层扩展接受区域。在输入开始，做一个图块植入模块和图块分割模块，将图片切成一个个小块，并嵌入到图块植入模块。在每个层次中，由图块拼接模块和多个区域组成。其中，图块拼接模块的作用是在每个层次开头来降低图片分辨率，调整通道数量，然后形成分层设计，还可以节省一定的计算量。每个下采样是两次，所以元素在行和列方向上的2个间隔被选择。然后拼接成一个整体，然后展开。此时，通道数量将变成原来的4倍(总数不变)，然后通过连接层调整通道数量为原来的2倍，主要由LN(LayerNnorm)，W-MSA(Window Attention)、MLP、SW-MSA(Shifted Window Attention)组成。

本发明的关键在于，过往的变换器都是在全局的基础上来计算得到注意力的，因此计算量庞大。但是Swin Transformer是将注意力的计算很好依靠分割局限于在各个部分，由此减少了计算量。window attention就是将图像依据一定的尺寸分割为不相同的窗口，每次变换器的注意力仅限于在该窗口内部进行有限计算。那么如果只有windowattention就会带来每一个像素点的感受野得不到提升的问题，所以它又设计了一个shiftwindow attention的方法，就是换一下窗口划分的方式，让每一个像素点做注意力计算的窗口块处于变化之中。那么就起到了提升感受野的作用。

本发明中解码器部分由DUpsampling模块实现，DUpsampling是现有较为新型的上采样模式，是可以集中丰富特征的信息的一种解码模式，是一个便捷的解码器，适用于图像语义分割，这种解码器主要的操作关键在于利用DUpsampling每一个像素点产生预测结果，不会在CNN计算较高分辨率的特征图中保留低计算效率的部分，并且将要综合的特征信息和最终得到的输出结果进行分别处理，两者不产生交互，使其他待融合特征可供选取。

首先看最简单的仅有几次上采样组成的解码器模块，给定

为解码器的输出，Y＝[0,1,2,…,C]^H×W为人工标注的掩码图，C和

分别表示分割的类别和最终输出的通道数，通常Y＝[0,1]^H×W×C，F通常比Y小16或32倍，计算损失的时候需要将F上采样至与Y相同尺寸，通过下面的公式计算：

L(F,Y)＝Loss(softmax(bilinear(F)),Y) (1)

由于这种方式太简单且不能够突出特征图重构过程，所以这里使用的双线性插值上采样的方法并不适合应用于此。因此采取的方式就是增大空洞卷积算法的使用率，加大计算的复杂程度，尽可能得到一个较小OS且拥有高分辨率的特征图作为该采样操作中的上采样输入从而降低该方法本身所具有的输入损失。由此得到的一个重要结果是，不同于其他方式中Y尺寸可以与将F上采样最终得到相同，利用图像语义分割中的人为标记的掩码图Y所包含的结构特征信息可以做到较轻程度的无损压缩，这里尝试将Y压缩至

然后计算F与

的损失。

为了将掩码图Y压缩成

本发明使用了一个几乎没有存在损耗的重构方法，对于给定r＝OutStride，Y被分割为

个r×r的网络格点，对于每一个格点S∈[0,1]^r×r×C，将S转化为一个向量v∈[0,1]^N，其中N＝r×r×C，最终将向量V压缩成一个较低维度的向量

然后对x向量进行水平方向和垂直方向的重新排列分布进而形成

最简单的就是线性映射，形式化定义为：

x＝P v；

其中，x是由v被

公式压缩得到的，而

是相反的转化，将v重新构建得到一个新参数

再将v最小化与

作对比，得到的误差即是P和W，该形式化定义为：

这一步可以采用标准的SGD方法来对公式进行优化，正交性限制可以应用主体部分进行简单分析来解决。

把

作为目标参量，利用回归方法和损失函数对网络进行预处理来观察这个目标参量能否和实际值相匹配：

此外更为直接的方式是直接计算在Y维度的损失，所以本方法通过对学到的转换W来对F进行上采样，然后计算F和Y的损失：

L(F,Y)＝Loss(softmax(DUpsample(F)),Y) (5)

经过上述的重构处理，DUpsampling(F)将线性上采样过程应用到tensor F中的所有的特征

中，由此替代了双线性插值。上述的上采样操作和在空间维度应用相同的点卷积操作，将该操作得到的卷积核参数存储到W中。除上述上采样操作之外，本发明还应用了一种非线性自动编码器来完成上采样操作，模拟处理的过程也是最小化重构之后的损失，但图像的语义分割的结果基本上和线性转化结果一致。

为了在编解码框架中融合所得到的取样结果进而得到一个可以单独处理运行的系统(DUpsampling能够直接涵盖在编解码框架中并且对其进行卷积处理，但是训练难度较大)，使用softmax函数，并且将一个和温度相关的参数设置到softmax函数中，这样能够得到更为平滑且正确的概率分布，softmax函数公式如下：

实验表明，在不调整其它参数的情况下，具有自适应温度参数的softmax函数可以加大训练过程的收敛速度。

上述的卷积特征具有灵活性，且其主要可以归纳为一下几个方面：超深度的卷积神经网络在通过计算机进行视觉处理的方面有较为突出的贡献和优势，但并没有保留图像的细节特征和细微特点。因此，根据以往的众多研究结果可以看出，结合浅层特征能够对语义分割的精准度和精细度有明显改进。

假设F是由CNNS的特征图生成最终的像素预测的结果，F_i和F_last是在leveli中的CNN操作的特征图和最终得到的特征图结果。上述的方法特征集合可以利用公式表达为：

F＝f(concat(F_i,upsample(F_last))) (7)

上述操作会产生如下两种影响：(1)f是在上采样操作之后再来应用，因为f作为CNN，输入信息的尺寸将会影响其计算量，这样的操作必然要增加解码器的计算难度，而且这种计算操作能够使解码器对浅层特征的融合能力被大幅度削弱；(2)当待融合特征F_i的尺寸与F的尺寸相等时，可以认为是最终输出的四分之一，为了使最终得到的预测图的分辨率提升更大，解码器只能从较为浅层的特征中进行选择。

与公式(7)进行对比，F_last表示的是低层特征进行下采样操作后产生的结果，可以得到以下的公式：

F＝f(concat(F_i,downsample(F_last))) (8)

这样的方法可以将低层特征和最终的分割所达到的预测结果进行分隔，令融合其他特征能够变得更加灵活。

步骤S3具体为：利用残差网络结构改进编码器部分。首先残差网络结构是用来解决当网络层数变深的时候，梯度消失的现象明显，令网络无法被正常应用问题。残差网络残差块使用表达式如下：

x_l+1＝x_l+F(x_l,W_l) (9)

式(9)中，F(x_l,W_l)是残差部分，一般由两个或者三个卷积操作构成，在卷积网络中x_l和x_l+1的特征图数不一致，所以需要再做1×1的卷积升维或降维处理，此时表达为：

x_l+1＝h(x_l)+F(x_l,W_l) (10)

残差块是将x_l层直接向后传输到更深的层次，在非线性激活前加入x_l，因此网络的每一层作为y＝H(x)，而残差网络的一个残差块表示为H(x)＝F(x)+x，在单位映射中，y＝x是观测值，H(x)是预测值，所以F(x)对应残差，因此称为残差网络。

对于一个更深层的L，其于l层的关系可以表示为：

有两个属性是上述公式(11)残差网络所能够展现的：

1)L层表示为任一个比它浅l层和他们之间的残差部分累积。

2)

L是每一个残差块特征在一个单位内部的和，而MLP是每一个特征矩阵的和。

上面公式反映了残差网络的两个属性：

1)在全局行备过程中，

不可能一直为-1，所以在残差网络中梯度将会一直存在，成功地解决了梯度消失。

2)

表示L层的梯度可以直接传递到任何一个比它浅的L层。

通过残差网络的连接，使得信息向前和向后传播更加流畅，因此能对编码器部分进行优化。

步骤S4具体为：使用log-cosh dice loss损失函数增加分割模型性能。在本发明中，采用了一种较为特殊的损失函数模型Log-Cosh Dice Loss。Dice系数是一种用来对分割输出结果做出评判的度量标准。当使用损失函数时，在许多基础的回归问题中都已经用到了Log-Cosh方法,当对该损失函数进行改进，即把Cosh(x)函数和Log(x)函数合并，可以得到Log-Cosh Dice Loss损失函数：

L_lc-dce＝log(cosh(DiceLoss)) (13)

它比L2损失更平滑，Log-cosh是预测误差的双曲余弦的对数

该函数的优点是对于一个较小的X值，log(cosh(x))大致上和(x²)/2近似；而对于较大的X值，则和abs(x)-log(2)的结果相近似。这能够说明Log-cosh在总体上的处理原理和平均方误差很像，但出现的少数错误的预测结果，即使比较离谱，也对最后的结果说明影响不大。它拥有Huber损失函数的绝大多数优势用途，但不会像Huber一样有很大的损失，它在所有位置都二次可微。

Dice系数是作为度量标准已经普遍地应用与计算机视觉处理领域和图像分割算法领域，通常用于评判两个图像之间的相似度。因此也有一种损失函数是由此改编而成的，称之为Dick损失。

Dice系数：是一个用于计算不同集合之间元素相似度的度量函数，而在图像处理时通常用于计算两个样本之间的像素的相似度，公式如下：

分子中有一个系数2的原因是分母中对X和Y进行了重复计算，对于分割任务而言，以X来代表Ground True分割图像，而Y所表示的就是分割图像的预测结果。通过整体的损失函数模型，可以很好地反映模型与实际数据的差异，更有利于对图像分割的性能优化。

本发明通过收集病灶数据集，将其图像作为数据源，导入到对应的程序中，自动输出分割图像，程序将由上述算法构成的代码实现，本发明的整体算法流程及实现模型见图2。本发明认为迄今为止用tranformer架构处理计算机视觉任务最有实用价值的就是swintransformer，在图像分割，目标检测各个领域已经霸榜，让很多人看到了transformer完全替代卷积的可能。而且它的设计思想吸取了resnet的精华，从局部到全局，将transformer设计成逐步扩大感受野的工具，通过将窗口注意力计算转化为移位窗口注意力计算，即shift window attention，换一种窗口分割方式，让每个像素点做attention计算的window块都处于变化之中，那么就起到提高感受野的作用。

本发明提出的解码器部分实现方法能够避免在上采样过程中对低分辨率的深层特征进行处理，能够使解码器模块的计算量大幅降低。实验表明本发明提出的计算复杂度较低的模型在多个数据集上都得到了SOTA效果。

本发明使用的残差网络残差网络结构，能够对编码器部分进行一定程度上的优化，相比于较浅的网络，较深的网络识别效果反而更差。残差网络能更好地提取图像不同层次上的特征。残差网络结构能很好地解决深度神经网络退化问题，在图像分割任务上有很好的表现，在同等深度、同等层次的前提下，残差网络野收敛地更快。根据式(11)，当信息向前传播的过程中，输入信号可以在无约束的情况下从低层向高层传播，由于存在一个恒等映射，且该映射本身就存在，在某种程度上可以使网络退化问题得到解决。而由式(12)知，当信息在反向传播的过程中，干扰信号能够不和中间层相互作用而向低层传播，一定程度上解决了梯度发散问题或者说梯度不会消失。由此我们大体上能够看出，残差网络的存在，可以使信息在向前向后传播的过程中更加流畅，有利于编码器的编码操作，使信号源失真度更小，提升图像分割的精度。

本发明中的损失函数的存在是对整体模型进行拟合和优化。通过引入Dick系数，构成新的log-cosh dice loss损失函数，增加更多的度量元素来提升分割性能，因为Dick系数可以从数学表示和函数模型上定性定量地对分割结果有一个较为准确的表示，来供技术人员作为技术指标。但是由于其非凸性，它多次都无法获得最佳结果。相较于传统的损失函数，本发明所用的损失函数能更好的符合发明用途，对样本的模拟性更好，能最大程度地优化发明算法。

在本发明所描述的图像分割算法中，仍然保留一些技术更新的可能性。在今后的发展中，U-Net网络结构将会是算法结构的基础，而本发明以U-Net网络结构为基础，这种U型对称网络结构，能够兼容许多参数优化以及算法优化。本发明的核心就在于以U-Net为基础，对算法的局部或整体进行优化，包括编码器采用残差网络结构，整体采用损失函数优化性能。这些算法层面的创新都是未来图像分割领域最重要的环节，也是目前本发明所突出的发明理念。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的眼底图像病灶分割方法，其特征在于，该方法包括以下步骤：

S1：使用眼底图像作为原始数据集，并采用SMOTE增强原始数据集，分为训练集和验证集；

2.根据权利要求1所述的眼底图像病灶分割方法，其特征在于，步骤S2中，Swin-Transformer结构有四层，第一层开始阶段会将CT图像分割为4个区块，每个区块通过补丁分区来缩小输入特征图的分辨率，再嵌入向量到下一个Swin-Transformer分区，利用二维卷积层的方法，每经过一次这样的Down-sampling过程，空间深度积为原来的四分之一，通道数变为原来的四倍，再又一个MLP缩减一半，经上述变化得到每经历一层，总数据量变为原来的二分之一；

DUpsampling模块，首先定义