CN115937590A

CN115937590A - 一种并联融合CNN和Transformer的皮肤病图像分类方法

Info

Publication number: CN115937590A
Application number: CN202211582312.9A
Authority: CN
Inventors: 白雪梅; 王帅; 张晨洁; 史新瑞; 王云鹏; 师宏锦; 候聪聪
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-04-07

Abstract

一种并联融合CNN和Transformer的皮肤病图像分类方法，涉及深度学习皮肤病图像分类领域，解决在皮肤疾病分类特征提取过程中，一些算法对病变区域特征提取不充分的问题，将CNN算法和Transformer算法并联融合，并在CNN部分引入SimAM自注意力机制，使算法既有CNN结构在局部特征提取方面的优势，又有Transformer结构在全局特征提取方面的优势。将CNN部分按照特征提取和降维操作分为四个阶段，四个阶段提取到的特征图分别与Transformer特征提取后的特征图进行四次融合，融合后的算法能充分的提取数据集中图像的特征信息，有效地提高了诊断的准确度。

Description

一种并联融合CNN和Transformer的皮肤病图像分类方法

技术领域

本发明涉及深度学习皮肤病图像分类领域，具体涉及一种通过并联融合CNN和Transformer来充分的提取图像特征进行皮肤疾病分类的方法。

背景技术

由于目前皮肤病种类繁多，且存在鉴别标准不统一、诊断过程较为复杂、依赖经验丰富的医生等问题，将图像处理技术应用到皮肤病辅助诊断上，减少因观察失误或经验不足导致皮肤病误诊的现象，极大提高皮肤疾病诊断的准确率。

近年来，随着计算机技术的不断进步，采用计算机辅助诊断技术对皮肤相关图像进行分析和处理已得到越来越多的应用。但目前皮肤图像资料在拍摄时存在成像角度不一、质量不高、存储格式不规范等问题，另一方面，当利用传统的图像处理方法进行皮肤状况诊断时不仅需要人工提取图像特征，而且识别速度慢，分类准确性不高。因此，采用深度学习的相关算法进行皮肤图像的特征提取，减少人工干预，提高模型自主学习程度，获取更多更详细的分类信息，是帮助医生做出皮肤状况辅助判断的一种有效途径。

在深度学习算法中，CNN利用神经元局部感受野，有效地提取图像的局部特征，以抵消有限的感受野引起的感应偏差，达到提取皮肤病影像图片中丰富且具有鲁棒性的特征的目的；Transformer在进行皮肤图像分割任务时，更擅长提取图像的全局特征，但不能有效地提取足够的局部细节来处理模糊边界。因此，将两者的优点并联融合，构建一种既有优秀的全局特征提取能力，又有优秀的局部特征提取能力的网络模型，进行皮肤图像的分类，获得更高的辅助诊断准确率，从而为后续的皮肤护理和治疗提供正确的引导基础。

发明内容

为了提高ISIC2019数据集中的黑色素瘤(MEL)、黑素细胞痣(NV)、基底细胞癌(BCC)、光化性角化病(AKIEC)、良性角化病(BKL)、皮肤纤维瘤(DF)、血管瘤(VASC)、鳞状细胞癌(SCC)8种皮肤病临床图像分类的准确率，本发明提供一种并联融合CNN和Transformer的皮肤图像分类方法，并在CNN中引入了无参数注意力机制SimAM，融合后的算法既包含了CNN作为卷积结构带来的在局部特征提取上的优势，又包含了Transformer结构在全局特征提取上的优势，使提取的图像特征更加专注于皮肤损伤的部分，取得了良好的分类效果。

该方法可由以下步骤实现：

步骤一、下载开源数据集ISIC2019，并将所有图片下采样至256*256大小，图像名称和标签保存在csv文件中；

步骤二、将CNN部分按照四次特征提取和降维操作分为四个阶段，与Transformer中的四个Stage相对应，并在每个阶段引入SimAM自注意力机制；

步骤三、图像转换为张量，分别送入CNN模块和Transformer模块进行局部特征提取和全局特征提取；

步骤四、图像在CNN模块中经过多次卷积操作，提取到不同层次的特征图，这些特征图与Transformer中经过Patch Merging和Patch Embedding后得到的特征图进行融合，再进一步进行特征的提取。经过CNN和Transformer不断地特征提取和特征融合，得到最终图像的特征向量，特征向量经过LN层、池化层和全连接层输出图像分类的预测结果；

步骤五、使用改进后的网络训练数据集，直到网络收敛，得到准确率和权重文件；

步骤六、使用测试集对网络模型进行测试，得到数据集中各类别的精确率、召回率和特异性。

本发明的优点及有益效果如下：

1、本发明提供了一种新的面部皮肤病诊断网络模型结构，该并联融合算法的结构有效提升了皮肤诊断的准确率。

2、本发明解决了CNN全局特征提取能力弱，Transformer局部特征提取能力弱的问题，使网络模型既能专注于皮肤损伤的局部特征，又能专注于皮肤损伤的全局特征，更充分的提取数据集中图像的特征信息。

附图说明

图1为本发明所述的算法的使用流程。

图2为本发明提出算法的结构图。

图3为Swin Transformer Block结构图。

图4为本发明提出算法在训练过程中的准确率曲线和损失曲线。

具体实施方式

本发明具体使用过程由以下步骤实现：

步骤一、下载皮肤病开源数据集ISIC2019。该数据集包含八类皮肤病类型:黑色素瘤(MEL)、黑素细胞痣(NV)、基底细胞癌(BCC)、光化性角化病(AKIEC)、良性角化病(BKL)、皮肤纤维瘤(DF)、血管瘤(VASC)、鳞状细胞癌(SCC)，共25331张图片，图片的名称和标签信息保存在csv文件中，并将每一类皮肤病的图片划分为训练集和测试集，其中80％的图片为训练集，20％的图片为测试集。

步骤二、在CNN部分引入SimAM注意力模块。SimAM模块是一种无参数的注意力模块，类似于人类的大脑，大脑中有丰富的神经元，为了挖掘到更重要的神经元，构建一种能量函数来确定每个神经元的重要性。在神经科学中，信息丰富的神经元通常表现出与周围神经元不同的放电模式，会出现空域抑制现象，也就是激活神经元抑制周围其他的未激活的神经元，所以具有空域抑制效应的神经元应该被赋予更高的重要性。通过度量神经元之间的线性可分性去寻找重要神经元，因此定义如下能量函数：

和

分别是t和x_i的线性变换

其中，t表示单个输入通道中的目标神经元，e_t表示该目标神经元的能量，x_i表示输入通道中的其他神经元，i是空间维度上的索引，M是该通道上神经元的数量，w_t是权重的线性变换，b_t是偏置的线性变换。

我们采用二值标签来代替y_t和y₀，y_t取值为1，y₀取值为-1，并添加正则项来简化公式(1)，简化后的能量函数公式如下：

最终得到的解为：

其中，μ_t是所有x_i的均值，σ_t ²是所有x_i的方差，λ是正则化常数，w_t是权重的线性变换，b_t是偏置的线性变换。

由于每个通道上所有神经元都遵循相同的分布，因此可以先对输入特征在H和W两个维度上计算均值和方差，避免重复计算,最小能量可以通过如下公式得到:

其中，

和

是特征图单通道内像素的均值和方差，λ为正则化常数。上述公式意味着：能量越低，神经元t与周围神经元的区别越大，重要性越高。因此，神经元的重要性可以通过

得到，

也就是该神经元的权重。

步骤三、CNN相比Transformer，更擅长局部特征的提取，因此使用CNN算法进行局部特征的提取。将CNN分为四个阶段，与Transformer的四个Stage相对应。CNN中的四个阶段都分别引入SimAM自注意力机制，使CNN算法更加关注于皮肤损伤的部分。第一阶段输入3*224*224大小的图片所转换的张量，经过CNN第一阶段中的卷积层、池化层等操作，得到56*56*256的特征图，再经过SimAM自注意力机制的作用，加强皮肤损伤区域的权重，但是特征图的维度依然是56*56*256，同时为了匹配Transformer第一阶段对输入特征图的深度的要求，将特征图通过一个含有96个1*1大小的卷积核的卷积层，得到维度为56*56*96的特征图，然后与Transformer经过Patch Partition和Linear Embedding层得到的特征图融合。在CNN中的第二阶段中，第一阶段得到的56*56*256的特征图经过第二阶段的特征提取，得到28*28*512大小的特征图，再次经过SimAM自注意力机制的作用和一个含有192个1*1大小的卷积核的卷积层，得到维度为28*28*192大小的特征图，与Transformer第二阶段得到的特征图相融合。在CNN的第三阶段中，再次经过特征提取，得到14*14*1024大小的特征图，经过SimAM和一个含有384个1*1大小的卷积核的卷积层，得到14*14*384大小的卷积层。在CNN的第四个阶段，输出的为7*7*768大小的特征图。CNN中各阶段进行的计算公式为：

C(z)＝Conv(Sim(C(z^-1))) (8)

式(8)中，C(z)为该阶段得到的特征图，z^-1为上一阶段得到的特征图，在第一阶段时，z^-1为图片张量，Sim为SimAM自注意力机制，Conv为降维操作的卷积层。

步骤四、输入Transformer的图像的大小为3*224*224，将图像转换为张量分别送入CNN和Transformer结构，在CNN中经过第一个特征提取阶段后，得到56*56*256的特征图，特征图经过SimAM自注意力机制的作用，得到更加关注于皮肤损伤区域的特征图，特征图的维度依然为56*56*256，再经过一个含有96个1*1大小的卷积核的卷积层,CNN部分提取到的特征图的维度变为56*56*96，经过展平和维度转换操作，特征图的维度变为3136*96。Transformer部分选择的是Swin Transformer算法，图片张量经过Transformer的PatchPartition层和Linear Embedding层后，维度降为3136*96，正好与图像经过CNN第一阶段特征提取得到的特征图的维度相同，因此，执行特征融合操作，使用add方法在保证通道数不变的情况下进行融合，这样又能保证计算量不会大量增加。特征融合的公式为：

其中，z为融合后的特征图，F为Transformer中各阶段的特征提取，C为CNN中的特征提取，C(z^-1)为CNN特征提取后得到的特征图，Sim为SimAM自注意力机制，Conv为降维操作的卷积层，F(z^-1)为上一阶段融合后的特征经过Transformer模块的特征提取后得到的特征图，在第一阶段时，z^-1为图片张量，

表示add融合操作。

第一阶段的特征融合得到的特征图的维度为3136*96，将该特征图经过SwinTransforemr Block模块，其中有成对出现的W-MSA结构和SW-MSA结构，Stage1、Stage2、Stage4中的Swin Transformer Block含有两对W-MSA和SW-MSA结构，Stage3中的SwinTransformer Block含有六对W-MSA和SW-MSA结构。通过Swin Transformer Block，执行滑动窗口自注意力，使权重更加聚焦于皮肤损伤的部分。

第一次融合后的特征图经过Swin Trasnforemr Block后维度不变，依然为3136*96，再经过Patch Merging模块，将特征图的高和宽降为原来的一半，深度变为原来的两倍，特征图的维度变为784*192。再与CNN第二阶段的特征提取后的特征图融合，经过Stage2中的Swin Transformer Block和Patch Merging，得到的196*384的特征图与CNN第三阶段的特征提取后得到的特征图融合。经过Stage3中的Swin Transformer Block和PatchMerging，与CNN第四阶段的特征提取后得到的特征图相融合，得到49*768大小的特征图。最终经过Stage4中的Swin Transformer Block，输出49*768大小的特征图。

Transformer输出的特征图要经过Layer Normal层，平均池化层和全连接层，最后才能输出预测类别。全连接层和传统的神经网络相似，其中的每个神经元都会与前一层的所有神经元相连。因此，全连接层包含数据的全局信息，将全连接层的每个神经元连接到Softmax函数，Softmax函数通常用于分类问题的输出层，其功能是将预测结果用概率的形式表示，其公式为：

其中，S为第m个神经元的输出值Z_m通过Softmax函数转换为的概率的值，C为神经元个数，Z_c为第c个神经元的输出值。

步骤五、用改进后的网络训练数据集，经过调参优化，得到收敛的模型，保存pth权重文件。CNN部分以ResNet-101为例，修改后的网络训练数据集达到89.6％的准确率。

步骤六、使用测试集再次对网络模型进行测试评估，得到的皮肤病各类别的精确率、召回率、特异性如表1所示。

表1数据集中各类别的精确率、召回率和特异性

	AKIEC	BCC	BKL	DF	MEL	NV	SCC	VASC
									精确率	0.805	0.904	0.917	0.881	0.876	0.904	0.829	0.932
召回率	0.786	0.938	0.784	0.787	0.773	0.972	0.696	0.82
									特异性	0.993	0.985	0.992	0.999	0.976	0.893	0.996	0.999

Claims

1.一种并联融合CNN和Transformer的皮肤病图像分类方法，其特征是：该方法由以下步骤实现：

2.根据权利要求1所述的一种基于并联融合CNN和Transformer的皮肤病图像分类方法，其特征在于：步骤二中，将CNN分为四个阶段，第一阶段由将图像维度从224*224降到56*56的卷积层、池化层，以及SimAM自注意力机制模块和一个将含96个卷积核的卷积层组成；第二阶段由将图像维度降到28*28的卷积层、池化层、SimAM自注意力模块和含192个卷积核的卷积层组成；第三阶段由将图像降维到14*14的卷积层、池化层、SimAM自注意力模块和含384个卷积核的卷积层组成；第四部分由将图像降维到7*7的卷积层、池化层、SimAM自注意力模块和一个含有768个卷积核的卷积层组成。

3.根据权力要求1所述的一种基于并联融合CNN和Transformer的皮肤病图像分类方法，其特征在于：步骤四中，CNN特征图与Transformer特征图融合执行add操作，并不会改变特征图的维度大小，描述图像的特征个数不变，但是每个特征下的信息却增加了。第一次融合后的特征图维度为56*56*96，第二次融合后为28*28*192，第三次融合后为14*14*384，第四次融合后为7*7*768。

4.根据权力要求1所述的一种基于并联融合CNN和Transformer的皮肤病图像分类方法，其特征在于：步骤四中所述融合部分的公式为：

F(z)＝Conv(Sim(C(z^-1)))⊕F(z^-1)

其中，z为融合后的特征图，F为Transformer中各阶段的特征提取，C为CNN中的特征提取，C(z^-1)为CNN特征提取后得到的特征图，Sim为SimAM自注意力机制，Conv为降维操作的卷积层，F(z^-1)为上一阶段融合后的特征经过Transformer模块的特征提取后得到的特征图，在第一阶段时，z^-1为图片张量，⊕表示add融合操作。