CN113744178B

CN113744178B - 一种基于卷积注意力模型的皮肤病变分割方法

Info

Publication number: CN113744178B
Application number: CN202010782877.6A
Authority: CN
Inventors: 蒋芸; 曹思敏; 陶生鑫; 吴超; 刘文欢
Original assignee: Northwest Normal University
Current assignee: Northwest Normal University
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2023-10-20
Anticipated expiration: 2040-08-06
Also published as: CN113744178A

Abstract

本发明公开了一种基于卷积注意力模型的皮肤病变分割方法，该分割方法具体按以下步骤：步骤1：选取ISIC‑2017数据集和PH2数据集，包含8位RGB皮肤镜检查图像，图像大小从540×722‑4499×6748像素不等，数据集提供2000张训练图像、用于验证的150张图像的单独数据集以及用于测试的600张图像的单独数据集，数据集中所有皮肤镜检查图像分别被标记为良性痣、黑色素瘤或脂溢性角化病，PH2数据集包含200张图像，其中160张图像为痣，分为普通痣和非典型性痣。本发明用于皮肤镜检查图像中准确的皮肤病变分割，对于医学研究者具有实际参考价值。模型添加多尺度输入模块，利用卷积注意力模块提取图像特征，通过多标签损失函数来更新参数以训练模型，生成最终的分割图。

Description

一种基于卷积注意力模型的皮肤病变分割方法

技术领域

本发明涉及计算机视觉医学图像处理领域，特别涉及一种基于卷积注意力模型的皮肤病变分割方法。

背景技术

众所周知，皮肤作为人体最大的器官，通常直接暴露在空气中，使得皮肤病成为人类最常见的疾病之一。黑素瘤作为一种致死率最高的恶性皮肤肿瘤，每年导致的死亡人数就超过10,000例。但是，如果能尽早发现，黑色素瘤可以通过简单的切除术治愈。可是，在实际诊断中，即使由经验丰富的皮肤科医生进行皮肤镜检查，也不能仅依靠他们的感知和视力来正确地对黑色素瘤进行检测。计算机辅助分析避免了许多这样的问题，并且越来越多地被研究以帮助皮肤科医生提高皮肤镜图像分析的效率和客观性。皮肤病变的自动分割是计算机辅助皮肤镜图像分析的重要步骤。

在早期，采用基于阈值的方法进行图像分割，但这种方法通常只能对图像进行模糊区分，无法获得精确的分割效果。近年来，卷积神经网络已被广泛用于解决图像分割问题。特别是对于医学图像分割，这些基于卷积神经网络的方法可以按像素分类以区分背景对象和前景对象，从而实现最终的分割。相对于早期方法，卷积神经网络已极大地提高了图像分割性能。但在皮肤病变分割领域，由于皮肤病变区域边界模糊，不同受试者的病变在位置、形状和颜色上表现出明显的差异性以及大量伪影包括固有的皮肤特征(例如头发、血管)和人工伪影(例如气泡、直尺标记、不均匀的照明、病变区域不完整等)的存在，使得一般卷积神经网络对于皮肤病变边界的准确分割仍具有巨大的挑战。之前的文献，已经在一定程度上解决了以上问题，但是，模型所使用的皮肤表层影像图来自患者皮肤表面照片而非公开可用的公共数据集，无法更好的验证模型的性能。其次，卷积神经网络结构，随着深度的增加，数据信息会不断地丢失，特征提取不完善导致模型分割性能不佳。多次重复卷积操作虽然可以增强特征的提取，但这个过程中却容易造成参数量过大，数据计算冗余进一步使得模型产生过拟合的问题，这极大地降低了模型的预测准确率。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于卷积注意力模型的皮肤病变分割方法。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种基于卷积注意力模型的皮肤病变分割方法，该分割方法具体按以下步骤：

步骤1：选取ISIC-2017数据集和PH2数据集：

ISIC-2017数据集包含8位RGB皮肤镜检查图像，图像大小从540×722-4499×6748像素不等，数据集提供2000张训练图像、用于验证的150张图像的单独数据集以及用于测试的600张图像的单独数据集，数据集中所有皮肤镜检查图像分别被标记为良性痣、黑色素瘤或脂溢性角化病，PH2数据集包含200张图像，其中160张图像为痣，分为普通痣和非典型性痣，其余40张图像为黑色素瘤，PH2数据集中的图像是大小固定为768×560像素的8位RGB图像，在相同条件下使用20倍放大倍数采集；

步骤2：数据预处理：

将ISIC-2017数据集中的2000张训练图像与150张测试图像合并，生成2150张皮肤镜检查图像的训练数据集，为了了解不同的色彩空间特征，在以RGB形式存在的2150张皮肤镜检查图像上增加色相饱和度值的三个通道，生成2150张HSV形式的皮肤镜检查图像，利用水平旋转、垂直旋转、水平垂直旋转这三种旋转方式随机生成样本，使得训练数据集拥有17200张皮肤镜图像，每个样例的右上为水平旋转、左下为垂直旋转、右下为水平垂直旋转，由于原始图像大小从540×722-4499×6748像素，按照原始图像的宽高比将图像的宽调整为256px，图像上下填充黑边，将高增加到256px，以此来组成训练图像；

步骤3：训练卷积神经网络模型：

建立网络模型，该网络模型是一个端到端的多标签深度网络，由多个注意力模块、多尺度输入层、U型卷积网络以及侧输出层组成：

注意力模块：网络模型利用卷积注意力模块提取图像特征，每个卷积注意力模块由固定模式的1×1、3×3、1×1卷积层、通道注意力模块和空间注意力模块依次堆叠；

在通道注意力模块中，利用特征通道间关系生成通道注意图，将输入特征F_C∈R^C ^×H×W，通过使用平均池化和最大池化操作来聚合特征图的空间信息，生成平均池化特征和最大池化特征，将生成的两个特征传送到由Fc1层、Relu激活函数和Fc2层组成的多层感知器中进行维度变换和矩阵乘积，获得两个通道的关联强度，分别输出特征图和然后对通道间的注意力特征图使用逐元素求和，使得各个通道之间能产生全局的关联，以进一步增强特征表示，合并输出的特征图X_C，如公式(1)所示，再经过sigmoid操作获得最终输出的通道注意力特征图A_C如等式(2)所示：

(1)式和(2)式中，表示逐元素相加；C表示通道个数；Xi,1,1表示坐标为(i,1,1)的元素；∪表示逐元素拼接；

在空间注意力模块中，将原始特征FS∈RC×H×W，沿通道轴使用平均池化和最大池化操作汇总特征图的通道信息，以生成两个二维特征图，再对特征进行加权融合，这样对于各个位置的点，其通过注意力图在全局空间中融合相似特征，之后利用卷积层生成2D空间注意图为：

(3)式中，W，b分别表示MLP的权重，MLP的偏置；Cat(.)表示拼接；Conv(.)表示卷积操作，其中C、H、W分别表示特征图的通道数、宽及高，里的W表示Weight，X_s∈R^1×H×W里的W表示width；

最后再经过sigmoid操作，获得最终输出的空间注意力特征图A_s为：

其中，m，n分别表示m^th position和n^th position；∪表示逐元素拼接；

其中编码器路径：利用注意力模块提取特征信息，使用步长为2的3×3卷积替代下采样中的池化操作，在每层的卷积操作后使用批量标准化层对每个层特征图进行归一化，然后使用带泄露整流激活函数将其激活，在编码器路径中，建立了多尺度输入层，利用注意力模块块提取特征信息，使用步长为2的3×3卷积替代下采样中的池化操作，将多尺度输入建立于图像进行下采样过程的编码路径中，给定输入尺寸为256×256的原始图像，经过三次下采样过程分别获得128×128、64×64和32×32三个不同尺寸的图像，与原始图像结合形成图像金字塔；

其中解码器路径：利用步长为2的3×3反卷积层、批量标准化层以及注意力模块输出解码器每层的特征图，提取每层注意力模块输出特征图，使用双线性插值法将其扩展到原输入图像大小，采用卷积操作完成多尺度特征融合输出对应层预测图，并将这些预测图相加后形成最终的预测图；

其中侧输出层：使用双线性插值法将输出特征图扩展到输入图像大小并采用步长为2的3×3卷积将每层多通道特征图转化为2通道特征图，实现降维操作，每层输出图像使用交叉熵损失函数来计算输出损失，对于样本(x,y)，x＝﹛x_i，i＝1，…，N﹜表示为训练数据，y＝﹛y_i，i＝1，…，N﹜为对应的标注数据，其中y_i＝﹛0,1﹜，第i个样本被预测为1的概率为y_p，N表示样本的总数，M表示多尺度输出层数，此时M＝5，每个多输出层的相应损失权重表示为a_i＝﹛a_i,i＝1，…，M﹜，并且a_i＝﹛0.1、0.1、0.1、0.1、0.6﹜，对于每个输出图像，分别计算损耗L，L定义为：

叠加每个输出层的L(N)，最终的输出损耗函数L为：

与现有技术相比，本发明的有益效果如下：

1：本发明用于皮肤镜检查图像中准确的皮肤病变分割，对于医学研究者具有实际参考价值。模型添加多尺度输入模块，利用卷积注意力模块提取图像特征，通过多标签损失函数来更新参数以训练模型，生成最终的分割图。

2：本发明提出了一种新颖注意力学习模块，来同时嵌入卷积模块与注意力模块，进一步改善了特征表示，可以广泛应用于网络中，提高病变分割的性能。

3：本发明为皮肤病变分割图像提供了一种预处理方法，以解决训练样本不足的问题。用黑边填充使得图像宽高比变相同，之后缩放至256×256，再经过三种随机旋转方式增加训练样本。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明分割方法的实现流程框架图；

图2是本发明分割方法中卷积注意模块的结构图；

图3是本发明分割方法中通道注意子模块和空间注意子模块图；

图4是皮肤图像预处理前后对比图；

图5是在ISIC2017数据集上分割方法中结构网络产生的病变分割结果(c)与标注样本分割结果(b)对比图；

图6是可视化的展现了在PH2数据集上本发明与标注样本相比的分割结果图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

如图1-5所示，本发明提供一种基于卷积注意力模型的皮肤病变分割方法，该分割方法具体按以下步骤：

步骤1：选取ISIC-2017数据集和PH2数据集：

步骤2：数据预处理：

步骤3：训练卷积神经网络模型：

(2)式和(2)式中，表示逐元素相加；C表示通道个数；Xi，1，1表示坐标为(i，1，1)的元素；∪表示逐元素拼接；

(3)式中，W，b分别表示MLP的权重，MLP的偏置；Cat(.)表示拼接；Conv(.)表示卷积操作，其中C、H、W分别表示特征图的通道数、宽及高，里的W表示Weight，Xs∈R^1×H×W里的W表示width；

叠加每个输出层的L(N)，最终的输出损耗函数L为：

具体的，如图1所示，该分割方法具体按以下步骤进行：

步骤1：选取ISIC-2017数据集和PH2数据集

ISIC-2017数据集包含8位RGB皮肤镜检查图像，图像大小从540×722-4499×6748像素不等。该数据集提供2000张训练图像、用于验证的150张图像的单独数据集以及用于测试的600张图像的单独数据集。ISIC-2017挑战数据集中所有皮肤镜检查图像分别被标记为良性痣、黑色素瘤或脂溢性角化病。

PH2数据集包含200张图像，其中160张图像为痣(即普通痣和非典型性痣)，其余40张图像为黑色素瘤。PH2数据集中的图像是大小固定为768×560像素的8位RGB图像，在相同条件下使用20倍放大倍数采集的。

此外，ISIC-2017挑战数据集和PH2数据集都提供了与病变分割边界配对的原始图像，这些图像是由专业的皮肤科医生进行了注释的，表1是ISIC-2017挑战数据集和PH2数据集的分布。

表1 ISIC 2017挑战赛数据集和PH2数据集的分布

表1中，Ne、Me和SK分别表示良性痣、黑色素瘤和脂溢性角化病。

步骤2：数据预处理

在深度学习方法中，训练通常需要大量的数据。因此，本发明分割方法中应用图像增强过程来扩大训练数据集。首先，将ISIC-2017数据集中的2000张训练图像与150张测试图像合并，生成2150张皮肤镜检查图像的训练数据集。其次，提供了一个预处理方法，使得模型可以更有效地学习图像数据分布，以缓解因过拟合而影响分割结果的问题。

图4显示了来自ISIC 2017挑战赛数据集的皮肤镜检查图像的实例，标注样本以及经过预处理后的图像。在ISIC-2017数据集上，合并生成的2150张皮肤镜检查图像都以RGB形式存在。为了了解不同的色彩空间特征，在以RGB形式存在的2150张皮肤镜检查图像上增加色相饱和度值(HSV)的三个通道，生成2150张HSV形式的皮肤镜检查图像，生成的HSV图像如图4(b)所示。在本方法中，利用水平旋转、垂直旋转、水平垂直旋转这三种旋转方式随机生成样本，使得训练数据集拥有17200张皮肤镜图像，生成的样本如图4(c)所示，每个样例的右上为水平旋转、左下为垂直旋转、右下为水平垂直旋转。由于原始图像大小从540×722-4499×6748像素不等，为了方便训练分割网络，如图4(c)右上角图例所示，按照原始图像的宽高比将图像的宽调整为256px，图像上下填充黑边，将高增加到256px，以此来组成训练图像。

步骤3：训练卷积神经网络模型

建立网络模型，该网络模型是一个端到端的多标签深度网络，由多个注意力模块、多尺度输入层、U型卷积网络以及侧输出层组成。该网络模型的体系结构，如表2：

表2本发明分割方法建立的网络模型的体系结构及实施细节

注意力模块：网络模型利用卷积注意力模块提取图像特征，每个卷积注意力模块由固定模式的1×1、3×3、1×1卷积层、通道注意力模块和空间注意力模块依次堆叠，如图2所示。两个子模块以先通道注意力后空间注意力的顺序方式排列，通道注意力模块利用共享网络的最大池化输出和平均池化输出；空间注意力模块利用特征要素之间的空间关系来生成空间注意图。

通道注意力模块和空间注意力模块，如图3所示。

在通道注意力模块中，利用特征通道间关系生成通道注意图，将输入特征F_C∈R^C ^×H×W，通过使用平均池化和最大池化操作来聚合特征图的空间信息，生成平均池化特征和最大池化特征。将生成的两个特征传送到由Fc1层、Relu激活函数和Fc2层组成的多层感知器(MLP)中进行维度变换和矩阵乘积，获得两个通道的关联强度，分别输出特征图和/>然后对通道间的注意力特征图使用逐元素求和，使得各个通道之间能产生全局的关联，以进一步增强特征表示，合并输出的特征图X_C，如公式(1)所示，再经过sigmoid操作获得最终输出的通道注意力特征图A_C如等式(2)所示。

(1)式和(2)式中，表示逐元素相加；C表示通道个数；X_i,1,1表示坐标为(i,1,1)的元素；∪表示逐元素拼接；

在空间注意力模块中，将原始特征F_S∈R^C×H×W，沿通道轴使用平均池化和最大池化操作汇总特征图的通道信息，以生成两个二维特征图和/>(具体过程如公式(3)(4)所示)，再对特征进行加权融合，这样对于各个位置的点，其通过注意力图在全局空间中融合相似特征。之后利用卷积层生成2D空间注意图Xs为：

(3)式中，W，b分别表示MLP的权重，MLP的偏置；Cat(·)表示拼接；Conv(·)表示卷积操作，C、H、W分别表示特征图的通道数、宽及高，里的W表示Weight，Xs∈R^1×H×W里的W表示width，具有特定含义，不能随便用别的字母替换；

其中，m，n分别表示m^th position和n^th position；∪表示逐元素拼接(contact)。

需要注意的是，对于特征图像，通常采用平均池化汇总空间信息，采用最大池化可推断出更精细的通道注意。因此，在这两个模块中，都选择同时使用平均池化和最大池化功能。通道注意力模块利用共享网络的最大池输出和平均池输出；空间子模块利用类似的两个输出，这两个输出沿通道轴汇集并将它们传输到卷积层。

(2)编码器路径：利用注意力模块提取特征信息，使用步长为2的3×3卷积替代下采样中的池化操作。为了避免过拟合，在每层的卷积操作后使用批量标准化层对每个层特征图进行归一化，然后使用带泄露整流激活函数将其激活。在编码器路径中，建立了多尺度输入层。利用注意力模块块提取特征信息，使用步长为2的3×3卷积替代下采样中的池化操作。将多尺度输入建立于图像进行下采样过程的编码路径中。给定输入尺寸为256×256的原始图像，经过三次下采样过程分别获得128×128、64×64和32×32三个不同尺寸的图像，与原始图像结合形成图像金字塔。

(3)解码器路径：利用步长为2的3×3反卷积层、批量标准化层以及注意力模块输出解码器每层的特征图。提取每层注意力模块输出特征图，使用双线性插值法将其扩展到原输入图像大小，采用卷积操作完成多尺度特征融合输出对应层预测图，并将这些预测图相加后形成最终的预测图。在这个过程中，为了缓解梯度消失问题以及增强早期层的训练，解码器路径接收输出层反向传播的输出损失，进行参数更新。

(4)侧输出层：使用双线性插值法将输出特征图扩展到输入图像大小并采用步长为2的3×3卷积将每层多通道特征图转化为2通道特征图，实现降维操作。每层输出图像使用交叉熵损失函数来计算输出损失，对于样本(x,y)，x＝﹛x_i，i＝1，…，N﹜表示为训练数据，y＝﹛y_i，i＝1，…，N﹜为对应的标注数据。其中y_i＝﹛0,1﹜，第i个样本被预测为1的概率为y_p。N表示样本的总数，M表示多尺度输出层数，此时M＝5，每个多输出层的相应损失权重表示为a_i＝﹛a_i,i＝1，…，M﹜，并且a_i＝﹛0.1、0.1、0.1、0.1、0.6﹜。对于每个输出图像，分别计算损耗L，L定义为：

叠加每个输出层的L(N)。最终的输出损耗函数L为：

本发明分割方法实施例中使用的硬件设备为Intel Xeon(R)CPU E5-2620v32.40GHz，NVIDIATesla K80(12G)。所有培训和测试均在相同的硬件环境中进行。实验所用操作系统为Ubuntu 16.04，采用Python 3.6作为编程语言，使用Facebook开源的Pytorch 1.0.0深度学习框架进行算法设计和编码。训练200个周期，初始学习率设置为0.1，并在80、120、160个周期后依次将学习率减少5倍。网络通过使用Nesterov动量的随机梯度下降法(Stochastic gradient descent)进行端到端的训练，动量参数设置为0.9，权值衰减系数为5e-4，小批量大小为8，使用多输出损失函数计算损失值，通过反向传播算法(Backpropagation)逐层传播损失和更新网络参数，并使用Softmax函数进行最终分类。

为了定量的评估本方法的分割能力，使用了以下皮肤病变分割评估指标：灵敏度(SEN)表示正确分割的皮肤病变像素的比例；高灵敏度(接近1.0)表明分割效果良好；特异性(SPE)表示未正确分割的皮肤非病变像素的比例；高特异性表明该方法分割非病变的能力。Jaccard索引(JAC)和骰子系数(DIC)用于测量分割病变与专家注释的分割结果的相似程度。还提供了准确性(ACC)，以显示整体像素级分割性能。利用Matthew相关系数(MCC)测量带注释的和分段的皮肤病变像素之间的相关性。所有这些指标都是根据混淆矩阵的元素计算的。

在ISIC-2017挑战赛数据集上，本发明分割方法在特异性和准确性方面分别获得了99.40％和95.85％的最高分，这表明本发明分割方法可以正确分割更多的皮肤病变像素。在图5中，给出了6个皮肤镜图像和由本发明分割方法学习的用于三类皮肤病变分割的相应可视化结果，图5(d)展示了所提出的分割方法的一些典型分割结果与ISIC-2017测试数据集中的良性痣，黑色素瘤和脂溢性角化病变的标注样本轮廓的比较。为了测试方法的稳健性和跨数据集性能，还使用PH2测试数据集进行了进一步的验证。即在黑色素瘤病例中的表现稍好，而在良性病例中则表现出显着改善，总体分割性能优于其他技术。实验结果还表明，我们的方法在Dice系数与杰卡德指数(Jaccard Index)上与现有技术性能相当，但在以前的工作中，在分割病变之前，在许多情况下通过额外的预处理步骤解决脱毛问题。这一步涉及将不同的滤波器(如定向高斯滤波器)应用于原始图像。相比之下，我们的策略不需要额外的步骤。图6可视化的展现了在PH2数据集上本发明与标注样本相比的分割结果图。从图6的分割结果可以明显的看出，我们的模型比与现有模型相比能分割出更为清晰的病变边缘，更好地融合了全局依赖关系的特征，使得分割结果更接近于标注样本。

大量实验表明，本发明皮肤病变分割方法具有较高的分割性能，采用以上基于卷积注意力模块的皮肤病变分割方法所建立的分割模型可以对皮肤病变进行自动化边界分割，且对于不同类型的皮肤病变分割具有良好的鲁棒性，这在计算机视觉图像处理领域具有很重要的意义。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积注意力模型的皮肤病变分割方法，该分割方法具体按以下步骤：

步骤1：选取ISIC-2017数据集和PH2数据集：

步骤2：数据预处理：

步骤3：训练卷积神经网络模型：

在通道注意力模块中，利用特征通道间关系生成通道注意图，将输入特征F_C∈R^C×H×W，通过使用平均池化和最大池化操作来聚合特征图的空间信息，生成平均池化特征和最大池化特征，将生成的两个特征传送到由Fc1层、Relu激活函数和Fc2层组成的多层感知器中进行维度变换和矩阵乘积，获得两个通道的关联强度，分别输出特征图和然后对通道间的注意力特征图使用逐元素求和，使得各个通道之间能产生全局的关联，以进一步增强特征表示，合并输出的特征图X_C，如公式(1)所示，再经过sigmoid操作获得最终输出的通道注意力特征图A_C如等式(2)所示：

其中，m，n分别表示m^thposition和n^thposition；∪表示逐元素拼接；

叠加每个输出层的L(N)，最终的输出损耗函数L为：