CN116912268A

CN116912268A - 一种皮肤病变图像分割方法、装置、设备及存储介质

Info

Publication number: CN116912268A
Application number: CN202310843590.3A
Authority: CN
Inventors: 李雅琴; 田桐赫; 袁操; 张子怡
Original assignee: Wuhan Polytechnic University
Current assignee: Wuhan Polytechnic University
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-10-20

Abstract

本发明涉及医学图像领域，公开一种皮肤病变图像分割方法、装置、设备及存储介质，该方法包括：基于SUTrans‑NET网络模型的编码器提取待分割皮肤图像的图像特征；并将编码器生成的图像特征输入至解码器中进行还原，输出分割特征图。通过CNN和Transformer构成的双编码器对图像进行提取并进行特征动态交互融合，同时，通过一个具有全尺度信息融合能力的解码器，综合利用来自不同层级的特征表示，从而更好地捕捉图像中的细节和全局上下文信息，缓解了现有技术中的医学图像处理方法在数据量较小的医学图像数据集上的应用受到限制技术问题。

Description

一种皮肤病变图像分割方法、装置、设备及存储介质

技术领域

本发明涉及医学图像技术领域，尤其涉及一种皮肤病变图像分割方法、装置、设备及存储介质。

背景技术

近年来，随着Transformer在自然语言领域的发展，医学图像分割也逐渐被Transformer占领。CNN由于感受野受限，只擅长获取局部特征，获取全局特征的Transformer被用于优化医学图像自动分割技术。随着Transformer在NLP任务中大放光彩，ViT将Transformer应用到图像分类任务中并取得成功之后，相关领域人员提出TransUNet(Transformers and U-Net)，该模型的出现开启Transformer在医学图像分割领域中的应用。由于Transformer在大规模数据集上才能更好的发挥其优势，而大多数医学图像数据属于小规模数据集，因此，研究进一步改进Transformer模块使其适用于医学图像处理便成了热门的研究方向之一。

目前结合CNN和Transformer的大多数医学图像分割方法直接套用现有backbone(ViT，ResNet)进行提取信息，层与层之间缺少信息流通，导致分割性能提升不明显。另外，Transformer中的多头自注意力机制计算量大，且并不适用于医学图像这种小型数据集。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种皮肤病变图像分割方法、装置、设备及存储介质，旨在解决现有技术中的医学图像处理方法在数据量较小的医学图像数据集上的应用受到限制技术问题。

为实现上述目的，本发明提供了一种皮肤病变图像分割方法，所述方法包括：

基于SUTrans-NET网络模型的编码器提取待分割皮肤图像的图像特征，所述SUTrans-NET网络模型的编码器由CNN编码器和Transformer编码器组成；

将所述编码器生成的图像特征输入至全尺度信息融合解码器中进行还原，并输出分割特征图。

可选地，所述图像特征包括CNN特征和Transformer特征，所述CNN编码器提取的CNN特征与所述Transformer编码器提取的Transformer特征全局共享权重，每一层都进行动态融合。

可选地，所述CNN编码器包含五层CNN编码单元，所述Transformer编码器的Transformer编码单元与所述CNN编码器的CNN编码单元数量相等；

所述CNN编码器的第X层CNN编码单元与所述Transformer编码器的第X层CNN编码单元进行图像特征动态交互，X的取值为1到5；

通过所述全尺度信息融合解码器对各层交互后的图像特征进行还原，并输出分割特征图。

可选地，所述Transformer编码器中的每个Transformer编码单元包括：Focus层、SGA层、SE层以及MLP。

可选地，所述SE层与所述MLP的输出跳跃连接；

对所述MLP的输出元素与所述SE层的输出元素进行特征点乘处理，获得所述Transformer编码器的当前Transformer编码单元图像特征。

可选地，所述CNN编码器与所述Transformer编码器间的图像特征全局共享权重，每一层都进行动态融合，包括：

将当前CNN编码单元获得的当前CNN特征传输至对应的所述当前Transformer编码单元的SGA层，以使所述当前Transformer编码单元根据所述当前CNN特征与前一层的Transformer特征获取当前Transformer编码单元的当前Transformer特征。

可选地，所述CNN编码器与所述Transformer编码器间的图像特征全局共享权重，每一层都进行动态融合的步骤，还包括：

将所述当前层CNN编码单元的当前层CNN特征作为下一层CNN编码单元的输入特征；

将所述当前层Transformer编码单元的Transformer特征与当前层CNN编码单元的当前层CNN特征进行处理，并将处理后的特征作为下一层Transformer编码单元的输入特征。

此外，为实现上述目的，本发明还提出一种皮肤病变图像分割装置，所述皮肤病变图像分割装置包括：

编码器模块，基于SUTrans-NET网络模型的编码器提取待分割皮肤图像的图像特征，所述SUTrans-NET网络模型的编码器由CNN编码器和Transformer编码器组成；

全尺度信息融合解码器模块，用于将所述编码器生成的图像特征输入至全尺度信息融合解码器中进行还原，并输出分割特征图。

此外，为实现上述目的，本发明还提出一种皮肤病变图像分割设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的皮肤病变图像分割程序，所述皮肤病变图像分割程序配置为实现如上文所述的皮肤病变图像分割的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有皮肤病变图像分割程序，所述皮肤病变图像分割程序被处理器执行时实现如上文所述的皮肤病变图像分割方法的步骤。

本发明基于SUTrans-NET网络模型的编码器提取待分割皮肤图像的图像特征；并将编码器生成的图像特征输入至全尺度信息融合解码器中进行还原，输出分割特征图。通过CNN和Transformer构成的双编码器对图像进行提取，在每一层都进行动态交互融合，利用SGA模块代替了传统VIT模型中的MHA模块，SGA使得各组能够整合出更值得关注的信息做空间注意力的加强,同时，通过一个具有全尺度信息融合能力的全尺度信息融合解码器，加入新的Multi-scale Fusion Block(MSF Block)模块，在上采样过程中采用切片操作，将CNN分支和上采样分支分别做两次切片操作最终进行Concat拼接，综合利用来自不同层级的特征表示，从而更好地捕捉图像中的细节和全局上下文信息，缓解了现有技术中传统网络在编码过程中逐渐丢失图像的分辨率，无法充分利用像素之间的空间关系。这在医学小数据集上的应用中尤为明显。利用Transformer长期依赖建模的优势将CNN提取的特征进一步优化以完成医学图像分割任务的方法,结合了CNN和Transformer的优势，网络既能够保持对局部细节的敏感性，又能够获取到全局语义信息，从而更全面地理解图像内容。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的皮肤病变图像分割设备的结构示意图；

图2为本发明皮肤病变图像分割方法第一实施例的流程示意图；

图3为本发明第一实施例编码器数据处理的流程示意图；

图4为本发明第二实施例皮肤病变图像分割方法数据处理的流程示意图；

图5为本发明提出的SUTrans-NET网络模型的处理流程示意图；

图6为本发明皮肤病变图像分割方法与现有分割方法的分割结果对比图；

图7为SUTrans-NET网络模型与其他先进模型的具体数据对比图；

图8为本发明皮肤病变图像分割装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的皮肤病变图像分割设备结构示意图。

如图1所示，该皮肤病变图像分割设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对皮肤病变图像分割设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及皮肤病变图像分割程序。

在图1所示的皮肤病变图像分割设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明皮肤病变图像分割设备中的处理器1001、存储器1005可以设置在皮肤病变像分割设备中，所述皮肤病变图像分割设备通过处理器1001调用存储器1005中存储的皮肤病变图像分割程序，并执行本发明实施例提供的皮肤病变图像分割方法。

现有技术中传统的"U"型网络架构采用CNN网络构建编码器-全尺度信息融合解码器结构，但是该结构在处理图像分割任务时存在一些限制。首先，由于重复的跨步和池化操作，传统网络在编码过程中逐渐丢失图像的分辨率，这可能导致在细节和边缘等细微特征的捕捉上存在困难，尤其是对于医学小数据集而言。其次，传统网络主要依赖于卷积操作，缺乏对长期依赖关系的建模能力，难以有效地捕捉全局上下文信息，这一特点在一些需要考虑整体语义信息的分割任务中可能限制了网络的性能。

相比之下，Transformer架构在自然语言处理领域取得了巨大成功，但在处理图像数据时存在一些挑战。Transformer架构缺乏对图像的空间信息的建模能力，无法充分利用像素之间的空间关系。这在医学小数据集上的应用中尤为明显，因为医学图像通常具有复杂的结构和细微的纹理，需要准确地捕捉空间信息才能进行有效的分割。

因此，传统的"U"型网络和Transformer架构各自存在局限性。为了克服这些限制，本发明提出了一种新型的编码器-全尺度信息融合解码器网络，即SUTrans-NET。它在网络设计中充分考虑了长期依赖性和全局上下文联系，并结合了CNN和Transformer的优势，在保留图像分辨率的同时，有效地捕捉局部和全局信息，提高图像分割的性能。通过这种方式，本发明的方案更好地应对医学小数据集的挑战，并取得更准确的分割结果。

本发明实施例提供了一种皮肤病变图像分割方法，参照图2，图2为本发明皮肤病变图像分割方法第一实施例的流程示意图。

本实施例中，所述皮肤病变图像分割方法包括以下步骤：

步骤S10：基于SUTrans-NET网络模型的编码器提取待分割皮肤图像的图像特征，所述SUTrans-NET网络模型的编码器由CNN编码器和Transformer编码器组成。

需要说明的是，本实施例方法的执行主体可以是具有模型数据处理、特征提取以及程序运行功能的终端设备，例如个人计算机、服务器等，也可以是具有相同或相似功能的电子设备，例如上述皮肤病变图像分割设备。以下以皮肤病变图像分割设备(以下简称分割设备)为例对本实施例及下述各实施例进行说明。

需要解释的是，上述SUTrans-NET网络模型，是一种用于对皮肤图像进行分割的网络模型，该网络模型中包括编码器部分和全尺度信息融合解码器部分。本发明通过构建一种充分结合了CNN编码器和Transforme编码器优势的医学图像分割模型SUTrans-NET网络模型，缓解了纯Transformer编码器不适用于小型医学图像数据集的问题。同时，本方案提升了CNN建立长期依赖关系和全局上下文联系的能力。

可以理解的是，编码器是一种可以将输入的图像编程为中间表达式形式的程序或模型，也即对输入进行特征抽取，获得输入特征。与之对应的为全尺度信息融合解码器，可以将编码器生成的中间表达式解码输出，也即对输入特征进行解码获得特征输出图像。

需要说明的是，本实施例构建的SUTrans-NET网络模型的编码器为双编码器结构，具体可以包括CNN编码器(CNN encoder)和Transformer编码器(Transformer encoder)。

相应的，上述图像特征包括由CNN编码器提取到的CNN特征和Transformer编码器提取到的Transformer特征。

可以理解的是，CNN是一种可以用于进行图像分类、目标检测、图像分割等任务的深度学习模型，它可以对输入的待分割皮肤图像进行特征提取，得到一组特征向量，也即对输入的待分割皮肤图像进行特征提取，获得CNN特征。Transformer encoder是一种用于自然语言处理(Natural Language Processing，NLP)和计算机视觉(Computer Vision，CV)等领域的深度学习模型。Transformer encoder的主要作用是对输入序列进行编码，得到一个固定长度的向量作为模型输出。也即对输入的待分割皮肤图像进行特征提取，获得Transformer特征。

需要说明的是，在本实施例中，CNN编码器提取的CNN特征和Transformer编码器间提取Transformer特征全局共享权重，每一层都进行动态融合。具体地，CNN编码器对待分割皮肤图像进行特征提取获得CNN特征，并将提取到的CNN特征传递至Transformer编码器；Transformer编码器提取待分割皮肤图像中的初步特征，并结合CNN特征和初步特征进行处理，获得Transformer特征。该Transformer特征会被传入至下一层Transformer编码器，以进行进一步地优化。

如图3所示，图3为本发明第一实施例编码器数据处理的流程示意图。

参照图3，本实施例中，输入Input为待分割皮肤图像。分别通过Transformer编码器和CNN编码器对待分割皮肤图像进行特征提取获得输出Output。

可以理解的是，Transformer编码器中包括Transformer单元(Transformerblock)，CNN编码器中包括CNN编码单元(CNN block)。

需要说明的是，Transformer单元中包括Focus(采样)层、SGA(空间组注意力，Spatial Group Attention)层、SE(压缩激励，Squeeze&Excitation)层和MLP(多层感知机，Multilayer Perceptron)。

需要解释的是，本实施例中Transformer单元的Focus层通过Focus Sampling对待分割皮肤图像进行采样。Focus Sampling是一种正则化技术，它可以用于防止过拟合。Focus层主要是实现没有信息丢失的下采样，通过对待分割皮肤图像进行切片操作，再通过间隔固定像素取值并扩充通道数，获得扩充通道维度的特征图。

需要说明的是，采用YOLOV5的Focus思想构建Transformer中的Patch Embedding模块(也即上文所述的Focus层)，防止了因采样降低图像分辨率，同时，Focus层还能像卷积神经网络一般学习到不同大小的感受野。

可以理解的是，SGA层可以对输入图像中的不同区域进行加权组合，以便关注图像中的重要特征。在SGA层中，每个输入图像被分成多个子区域(通常是固定大小的矩形),然后对每个子区域应用一个注意力机制。这个注意力机制会根据子区域与整个图像的关系来计算每个子区域的重要性得分，并将这些得分加权平均，得到一个加权和表示。最后，这个加权和表示被送入后续的神经网络层进行处理。

需要说明的是，本实施例在编码器-全尺度信息融合解码器架构中，通过SGA层替换传统的MHA(多头自注意力，Multi-head Self-Attention)层。SGA层采用了分组注意力的思想，以增强空间注意力并整合特征维度信息。通过将特征图分为多个组，并在每个组内学习语义信息，能够增强特征在组内的空间分布。本实施例通过SGA层计算目标注意力相似向量，从而增强了重要位置的特征，将其他不重要位置的特征变为零向量。

可以理解的是，SE层是一种用于提升卷积神经网络性能的注意力机制。它通过通道级的特征响应来进行全局压缩，并在网络的所有层中利用全局上下文信息，这使得网络能够学习到更紧凑的输入数据表示形式，从而提高准确性和训练速度。

在SE层中，首先通过一个全局池化操作对输入特征进行降维，将每个通道的特征图转化为一个标量值。接着，通过一个小型的神经网络(通常由全连接层组成)对这些标量值进行学习，产生每个通道的权重。这个学习过程通常是通过简单的门控机制实现的，将每个通道的权重限制在0到1之间。最后，将得到的权重乘以原始特征图，以对特征进行加权，然后将加权后的特征作为后续网络层的输入。

在一种实现方式中，定义输入特征为X，其中X是一个三维张量，表示特征图的宽度、高度和通道数。

假设输入特征的维度为[W,H,C]，给定变换构建：

F_tr:X→U,X∈R^Wt×Ht×Ct，U∈R^W×H×C

其中，Ftr表示标准的卷积算子，滤波器核用V＝{v1,v2,....,vc},v的下标表示滤波器参数，Ftr的输出表示为U＝{u1,u2,....,uc}

卷积用*符号表示，SE模块主体分为两步：

Squeeze做全局的信息嵌入，Excitation用来自适应重新校正。统计量z∈RC是通过缩小U的空间维度H×W来生成的：

Excitation操作来全面捕获通道依赖性，采用门控机制和sigmoid激活：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中，σ代表Relu操作，降维层的参数设置为W1，升维层参数设置为W2，比例系数为r，/>Fscale(uc，sc)为u_c∈R^H×W和s_c对应通道的乘积。SE块通过不断的堆叠卷积层进行信息交互，得到效果的提升。

需要说明的是，本实施例在SUTrans-NET网络模型中引入了SE层，SE层通过显式建模通道之间的相互依赖性，使得本申请的SUTrans-NET网络模型可以更好地将局部上下文和全局上下文进行高度融合。通过SE层能够显示地重新校准不同特征，让模型能够关注更有用的图像特征，从而提升了SUTrans-NET网络模型分割性能。

可以理解的是，MLP是一种常用于分类和回归任务的人工神经网络。它由多个相互连接的节点或神经元层组成，每个层在处理输入数据后将其传递给下一个层。MLP的第一层被称为输入层，它接收原始数据并将其转换为可以由后续层处理的格式。其余层称为隐藏层，每个层对输入数据进行非线性变换后再传递到输出层。

还需要说明的是，CNN编码单元中包括卷积层(Conv)、批量归一化层(BatchNorm)、激活函数层(Relu)。具体地，本实施例的CNN编码单元采用Resnet80作为CNN分支的主干网络，保持与它相同的编码规则。

可以理解的是，卷积层是深度学习中的一种常用神经网络层，主要用于图像和语音处理等领域。它的主要作用是对输入数据进行卷积操作，提取出特征并传递给下一层。

应当理解的是，批量归一化(Batch normalization，Bath Norm)是一种深度学习模型训练中的技术，用于在训练过程中对输入数据进行标准化。它涉及将输入数据除以其整个批次的数据均值和标准差。这有助于减少在具有大型批量大小的深度神经网络中可能发生的内部协变性问题。

可以理解的是，ReLU(Rectified Linear Unit)是一种常用的激活函数，它在神经网络中被广泛使用，它的作用是对输入数据进行非线性变换，使得神经网络可以更好地拟合复杂的非线性关系。

需要解释的是，CNN编码器的CNN编码单元通过第一卷积层将输入的待分割皮肤图像与一组可学习的卷积核(也称为滤波器)进行卷积操作，从而生成一个新的图像表示，即第一图像表示。该图像表示中包含了原始图像中的重要特征信息，例如边缘、纹理、形状等。

需要说明的是，本实施例中采用Resnet50作为CNN分支的主干网络，ResNet网络的引入在深层次网络中有效地解决了梯度消失问题，并加快了网络的训练收敛速度。为了充分利用其优势，将ResNet50网络作为双编码器的一部分。

可以理解的是，在获得图像表示时，CNN编码单元将该图像表示输入至第一批量归一化层进行标准化处理，并通过第一激活函数层对标准化处理后的图像表示进行处理，获得第一CNN特征。

进一步地，CNN编码单元将获得的CNN特征传递至Transformer单元的SGA层，使得二者共享权重值，实现全局信息共享，降低了图像像素提取的损失。

具体地，为了保留图像的空间特征，本实施例采用了Yolov5中的Focus模块来替代VIT中的patch embedding模块，Focus模块对图像进行切片操作，每隔一个像素取值，并扩展通道数。既保留了图像的空间特征，又不改变原始图像的分辨率，本实施例的网络可以学习到不同感受野下的特征。SGA层利用分组注意力的思想，以加强空间注意力并整合特征的维度信息，将输入的特征分成多个组，并在每个组内学习语义信息。这种分组操作有助于增强特征在组内的空间分布。

需要说明的是，SE层与MLP的输出进行跳跃连接。通过将待融合特征与MLP层进行融合，即可获得Transformer特征。

需要解释的是，本实施例优化了传统的简单跳跃连接的方式，引入ASPP思想使上采样路径学习到的特征更加有效，缓解了重复的跨步和池化操作丢失图像的分辨率的问题。

本实施例通过CNN编码器和Transformer编码器的双编码器结构，并对Transformer编码器中的部分模型进行替换，解决了现有技术中因为重复的跨步和池化操作不可避免地丢失了图像的分辨率的问题，同时缓解了现有技术中使用纯Transformer编码器不适用于小型医学图像数据集的问题，并提升了CNN建立长期依赖关系和全局上下文联系的能力。

步骤S20：将所述编码器生成的图像特征输入至全尺度信息融合解码器中进行还原，并输出分割特征图。

需要说明的是，在通过编码器获得待分割皮肤图像的图像特征后，将该特征输入至全尺度信息融合解码器中进行还原，即可获得待分割图像的分割特征图。

本实施例基于SUTrans-NET网络模型的编码器提取待分割皮肤图像的图像特征；并将编码器生成的图像特征输入至全尺度信息融合解码器中进行还原，输出分割特征图。通过CNN和Transformer构成的双编码器对图像进行提取，在每一层都进行动态交互融合，同时，通过一个具有全尺度信息融合能力的全尺度信息融合解码器，MSF模块采用并行布局方式，利用多个并行的空洞卷积层在不同尺度下提取特征。每个并行分支都通过不同的空洞率构建卷积核，以便有效地处理区域的任意尺度，从而能够捕捉到多尺度信息并实现像素点的有效分类。在最终的结果中，这些提取的特征以融合的方式进行生成，综合利用来自不同层级的特征表示，从而更好地捕捉图像中的细节和全局上下文信息，缓解了现有技术中利用Transformer长期依赖建模的优势将CNN提取的特征进步优化以完成医学图像分割任务的方法由于Transformer缺乏图像的空间信息，尤其是在捕获图像结构边界时存在局限性而使得Transformer方法在数据量较小的医学图像数据集上的应用受到限制。

基于如上文所述的本发明皮肤病变图像分割方法的第一实施例，提出本发明皮肤病变图像分割方法的第二实施例。

参照图4，图4为本发明第二实施例皮肤病变图像分割方法数据处理的流程示意图。

如图4所示，本实施例中编码器具有五层编码单元，也即CNN编码器(CNN encoder)包含五层CNN编码单元，Transformer编码器(Transformer encoder)的Transformer编码单元与CNN编码器的CNN编码单元数量相等，也即Transformer编码单元包含五层Transformer编码单元。

需要说明的是，本实施例的CNN编码单元与Transformer编码单元相互对应。具体地，所述CNN编码器的第X层CNN编码单元与所述Transformer编码器的第X层CNN编码单元进行图像特征全局共享权重、动态融合，X的取值为1到5。

需要说明的是，上述MLP的输出元素即本发明实施例一中所述的待融合特征，上述SE层的输出元素即本发明实施例一中所述的压缩激励后的SGA特征。

将当前层CNN编码单元获得的当前层CNN特征传输至对应的所述当前层Transformer编码单元的SGA层，以使所述当前Transformer编码单元根据所述当前层CNN特征与前一层的Transformer特征获取当前层Transformer编码单元的当前层Transformer特征。具体地，所述当前Transformer编码单元合并前一层的Transformer特征与分辨率的CNN特征同时进行编码，获得当前Transformer编码单元的当前Transformer特征，实现双编码器的全局共享权重。

将所述当前层Transformer编码单元的当前层Transformer特征作为下一层Transformer编码单元的输入特征；

将所述当前层Transformer编码单元的Transformer特征与所述当前层CNN编码单元的当前层CNN特征进行处理，并将处理后的特征作为下一层Transformer编码单元的输入特征。

具体地，本发明实施例第一编码单元的处理流程如图5所示，图5为本发明SUTrans-NET网络模型的处理流程示意图。

第一CNN编码单元提取待分割皮肤图像的第一CNN特征，并将所示第一CNN特征传输至第一Transformer编码单元的SGA层，第一Transformer编码单元根据第一CNN特征和待分割皮肤图像的采样特征图获得第一Transformer编码单元的第一Transformer特征。具体地，第一Transformer编码单元根据第一CNN编码单元提取的浅层纹理信息结果和Transformer分割皮肤图像的采样特征图以获得第一Transformer特征。

需要说明的是，CNN编码单元和Transformer编码单元提取并生成对应特征的步骤如实施例一所述，本实施例对此不加以赘述。

需要解释的是，在获得第一CNN特征和第一Transformer特征时，第一编码单元对第一CNN特征和第一Transformer特征进行特征融合处理，获得第一融合特征，基于下采样(Down-sampling)的方式将第一Transformer特征作为第二Transformer单元的输入进行第二编码单元的处理。

需要说明的是，本实施例中，第二编码单元、第三编码单元以及第四编码单元的处理流程与上述第一编码的处理流程相同，本实施例对此不加以赘述。

需要解释的是，本实施例第五编码单元的处理流程类似于上述第一编码单元至第四编码单元的处理流程，但与之不同的是，在获得第五CNN特征和第五Transformer特征时，第五编码单元对所述第五CNN特征和第五Transformer特征进行特征相加处理，获得第五融合特征，并将所述第五融合特征作为全尺度信息融合解码器的初始输入从而进行解码。

本实施例通过并行构建CNN编码器和Transformer编码器的双编码器，并实现了每一层CNN编码单元与Transformer编码单元之间的信息动态交互，解决了CNN编码器和Transformer编码器结合应用的情况下层与层之间信息不流通的问题，从而实现了全局和局部信息的共享。

进一步地，为了对编码器提取的图像特征进行解码，本发明实施例全尺度信息融合解码器的全尺度信息融合解码器单元的数量与上述编码单元的数量相等，也即全尺度信息融合解码器包括五层全尺度信息融合解码器单元。

需要说明的是，每层全尺度信息融合解码器单元均由引用DeepLabV3中的AtrousSpatial Pyramid Pooling(ASPP)思想来构建并行的布局方式，从而对各层交互后的图像特征进行还原，以提取不同尺度下的待分割皮肤图像的特征。

具体地，全尺度信息融合解码器单元通过多个并行的空洞卷积层，在每个分支中使用不同的空洞率构建具有不同感受野的卷积核，以便对不同尺度的区域进行有效的像素点分类，能够充分利用不同感受野的卷积核，从而在特征提取阶段获得更全面的上下文信息。最后，将各个分支的特征进行融合，生成最终的结果。

需要说明的是，在本实施例中，第五层全尺度信息融合解码器的采样过程中包括1×1Conv、3×3Conv padding 3、3×3Conv padding 6、3×3Conv padding 9、1×1Conv。SUTrans-NET将空洞系数r设置为r(0，3，6，9)进行上采样，在上采样过程中采用切片操作，与传统的解码器相比，能更好提取图像的边缘特征。当然，本实施例所述的上述卷积核仅为本方案的一种实施例，并不构成对本实施例全尺度信息融合解码器的限制。

解码单元通过多个卷积层对输入图像特征进行解码，从而获得与输入图像特征对应的解码图像特征。

应当理解的是，本实施例中，第五解码单元的第五输入图像特征为上文所述的第五融合特征。第五解码单元的解码处理流程为：通过对第五输入图像特征进行解码处理，获得第五解码图像特征，通过切片操作多尺度融合快(Multi-scale Fusion Block，MSFBlock)并融合ASPP做图像上采样，从而基于上采样(Up-samping)的方式获得第四解码单元的第四输入图像特征。

可以理解的是，本发明实施例的第四解码单元、第三解码单元以及第二解码单元的解码处理流程参照上文所述的第五解码单元的解码处理流程，本实施例在此不加以赘述。

需要说明的是，本发明实施例的第一解码单元即全尺度信息融合解码器的head层，第一解码单元通过对第一输入图像特征进行解码处理，获得待分割皮肤图像的分割特征图。

本实施例通过设计全尺度全尺度信息融合解码器，通过多个并行的空洞卷积层，在每个分值中使用不同空洞率构建不同感受野的卷积核，融合了不同阶段不同尺度编码器单元提取的特征信息，提高了解码的精准度。

如图6和图7所示，图6为本发明皮肤病变图像分割方法与现有分割方法的分割结果对比图，图7为SUTrans-NET网络模型与其他先进模型的具体数据对比图。

其中A列表示输入图片，B列表示通过ground truth进行分割的分割结果，C列表示通过U-Net的分割结果，D列表示通过DeepLabV3+进行分割的分割结果，E列表示通过SwinUNet进行分割的分割结果，G列为本发明皮肤病变图像分割方法通过SUTrans-NET网络模型进行分割的分割结果。

本申请在ISIC2017数据集上，验证了SUTrans-NET网络的实验效果，ISIC2017数据集是一个用于皮肤病诊断的公开数据集，包含来自不同疾病类别的皮肤镜图像，ISIC 2017数据集分为训练集(2,000张图像)、验证集(150张图像)和测试集(600张图像)三个部分。训练集用于模型训练和调整超参数，验证集用于模型选择和性能评估，而测试集则用于最终模型的性能评估和比较。

使用相同的实验环境和数据增强方法对7个较为先进的语义分割网络进行比较，包括U-Net、DeepLabV3+、EANet、AttU-Net、FATNet、SwinUNet、TransUNet。SUTrans-NET在SE、SP、ACC、IoU和Dice评价指标取得了不错的成绩。

以下的评价指标的简介：Sensitivity(SE)：灵敏度，衡量了在所有正例中正确识别为正例的比例。它计算了被正确分类为正例的样本数与所有实际正例样本数的比值。Specificity(SP)：特异度，衡量了在所有负例中正确识别为负例的比例。Accuracy(ACC)：准确率，衡量了所有分类正确的样本占总样本数的比例。Intersection over Union(IoU)：交并比，衡量了预测结果与真实标签之间的重叠程度。它计算了预测结果与真实标签的交集面积与它们的并集面积的比值。Dice coefficient：Dice系数，衡量了预测结果与真实标签之间的相似度。它计算了预测结果与真实标签的两倍交集面积与它们的总像素数之间的比值。这些评价指标常用于评估分类或分割任务的性能。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有皮肤病变图像分割程序，所述皮肤病变图像分割程序被处理器执行时实现如上文所述的皮肤病变图像分割方法的步骤。

基于本发明皮肤病变图像分割方法的第一实施例，提出本发明皮肤病变图像分割装置的第一实施例，参照图8，图8为本发明皮肤病变图像分割装置第一实施例的结构框图。

如图8所示，本发明实施例提出的皮肤病变图像分割装置包括：

编码器模块801，用于基于SUTrans-NET网络模型的编码器提取待分割皮肤图像的图像特征，所述SUTrans-NET网络模型的编码器由CNN编码器和Transformer编码器组成；

全尺度信息融合解码器模块802，用于将所述编码器生成的图像特征输入至全尺度信息融合解码器中进行还原，并输出分割特征图。

进一步地，所述图像特征包括CNN特征和Transformer特征，所述CNN编码器提取的CNN特征与所述Transformer编码器提取的Transformer特征全局共享权重，每一层都进行动态融合。

进一步地，所述Transformer编码器中的每个Transformer编码单元包括：Focus层、SGA层、SE层以及MLP。

本实施例基于SUTrans-NET网络模型的编码器提取待分割皮肤图像的图像特征；并将编码器生成的图像特征输入至全尺度信息融合解码器中进行还原，输出分割特征图。通过CNN和Transformer构成的双编码器对图像进行提取，在每一层都进行动态交互融合，同时，通过一个具有全尺度信息融合能力的全尺度信息融合解码器，综合利用来自不同层级的特征表示，从而更好地捕捉图像中的细节和全局上下文信息，缓解了现有技术中的限制。

参照如上所述的本发明皮肤病变图像分割装置的第一实施例，提出本发明皮肤病变图像分割装置的第二实施例。

本实施例中，所述CNN编码器包含五层CNN编码单元，所述Transformer编码器的Transformer编码单元与所述CNN编码器的CNN编码单元数量相等；

所述CNN编码器的第X层CNN编码单元与所述Transformer编码器的第X层CNN编码单元进行图像特征动态交互，X的取值为1到5；所述全尺度信息融合解码器模块802，还用于通过所述全尺度信息融合解码器对各层交互后的图像特征进行还原，并输出分割特征图。

进一步地，所述SE层与所述MLP的输出跳跃连接；所述编码器模块801，还用于对所述MLP的输出元素与所述SE层的输出元素进行特征点乘处理，获得所述Transformer编码器的当前Transformer编码单元图像特征。

进一步地，所述CNN编码器与所述Transformer编码器间的图像特征全局共享权重，每一层都进行动态融合，所述编码器模块801，还用于将当前CNN编码单元获得的当前CNN特征传输至对应的所述当前Transformer编码单元的SGA层，以使所述当前层Transformer编码单元根据所述当前层CNN特征与前一层的Transformer特征获取当前层Transformer编码单元的当前层Transformer特征。

进一步地，所述编码器模块801，还用于将所述当前层CNN编码单元的当前层CNN特征作为下一层CNN编码单元的输入特征；将所述当前层Transformer编码单元的Transformer特征与当前层CNN编码单元的当前层CNN特征进行处理，并将处理后的特征作为下一层Transformer编码单元的输入特征。

本发明皮肤病变图像分割装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种皮肤病变图像分割方法，其特征在于，所述方法包括：

2.如权利要求1所述的皮肤病变图像分割方法，其特征在于，所述图像特征包括CNN特征和Transformer特征，所述CNN编码器提取的CNN特征与所述Transformer编码器提取的Transformer特征全局共享权重，每一层都进行动态融合。

3.如权利要求2所述的皮肤病变图像分割方法，其特征在于，所述CNN编码器包含五层CNN编码单元，所述Transformer编码器的Transformer编码单元与所述CNN编码器的CNN编码单元数量相等；

4.如权利要求3所述的皮肤病变图像分割方法，其特征在于，所述Transformer编码器中的每个Transformer编码单元包括：Focus层、SGA层、SE层以及MLP。

5.如权利要求4所述的皮肤病变图像分割方法，其特征在于，所述SE层与所述MLP的输出跳跃连接；

6.如权利要求5所述的皮肤病变图像分割方法，其特征在于，所述CNN编码器与所述Transformer编码器间的图像特征全局共享权重，每一层都进行动态融合，包括：

7.如权利要求6所述的皮肤病变图像分割方法，其特征在于，所述CNN编码器与所述Transformer编码器间的图像特征全局共享权重，每一层都进行动态融合的步骤，还包括：

8.一种皮肤病变图像分割装置，其特征在于，所述皮肤病变图像分割装置包括：

9.一种皮肤病变图像分割设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的皮肤病变图像分割程序，所述皮肤病变图像分割程序配置为实现如权利要求1至7中任一项所述的皮肤病变图像分割的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有皮肤病变图像分割程序，所述皮肤病变图像分割程序被处理器执行时实现如权利要求1至7任一项所述的皮肤病变图像分割方法的步骤。