CN114821645A

CN114821645A - 融合残差Inception与双向ConvGRU的皮肤病变分割方法

Info

Publication number: CN114821645A
Application number: CN202210415851.7A
Authority: CN
Inventors: 欧译丹; 陈思光; 顾敏杰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-29
Anticipated expiration: 2042-04-20
Also published as: CN114821645B

Abstract

本发明公开了融合残差Inception与双向ConvGRU(Convolutional GatedRecurrent Unit,ConvGRU)的皮肤病变分割方法,其设计了一种云边协同的皮肤病变智能分割服务网络模型，通过该网络模型，用户可以获得快速、准确的分割服务；其次，构建了一种新的皮肤病变智能分割模型，通过融合残差Inception与双向ConvGRU，该模型能融合不同尺度特征，提高模型特征提取能力，并能充分利用底层特征与语义特征之间的关系，捕获更丰富的全局上下文信息，取得更好的分割性能。

Description

融合残差Inception与双向ConvGRU的皮肤病变分割方法

技术领域

本发明涉及人工智能与智慧医疗领域，尤其涉及一种融合残差Inception与双向ConvGRU 的皮肤病变分割方法。

背景技术

皮肤病是最普遍的疾病之一，而恶行皮肤病，如皮肤癌，是造成全世界人类死亡的重要原因之一。其中，黑色素瘤是最致命的皮肤癌。如果不及早发现，黑色素瘤会深入皮肤，并攻击附近健康细胞。一旦黑色素瘤扩散到身体的其他部位，就变得难以治疗，其五年生存率低于15％。Siegel等人研究发现，如果黑色素瘤能在早期阶段被诊断，5年生存率可达到92％，因此，恶性皮肤病的早期诊断至关重要。然而，良性皮肤病与恶性皮肤病在视觉上及其相似，这给皮肤病鉴别带来了极大困难。当前，皮肤病诊断需求急剧增加，主要依赖临床医生视觉评估来进行诊断，这种方法耗时繁琐，且易出错。

针对上述诊断需求量大与人工诊断易出错的问题，计算机辅助诊断(Computer-Aided Diagnosis,CAD)系统被广泛应用于临床皮肤病的初步诊断。CAD系统的执行过程一般分为四个步骤：预处理、分割、特征提取与分类。其中，分割是对皮肤病图像进行分析的基础工作，且分割结果对皮肤病诊断的影响最大。分割可通过检查病灶的大小、形状、颜色与纹理来完成。然而，由于皮肤病种类繁多，且病灶的形状、大小、颜色各不相同，有些病灶边界不规则，有些病灶与皮肤之间的过渡很平滑，因此很难进行精确的分割。

随着机器学习与深度学习的发展，它们在各个领域取得了良好的应用效果。越来越多的研究者将其应用于医学图像领域。目前，在图像分割领域，具有代表性的方法大概有三类：基于机器学习的方法、基于全卷积神经网络的方法以及基于编码器-解码器架构的方法。

基于机器学习的方法：该类方法大多基于传统的机器学习算法，通常只能提取底层特征信息，而无法提取高级语义特征。因此，传统方法难以对复杂皮肤镜图像进行精确的分割。

基于全卷积神经网络的方法：全卷积网络(Fully Convolutional Networks,FCN)将卷积神经网络(Convolutional Neural Networks,CNN)中的所有全连接层都替换为卷积层，这使得它能接收任意大小的图像并输出相同大小的分割图。该类方法提升了皮肤病图像分割的准确率，但也存在一定的局限性，比如，没有考虑全局上下文信息，对图像细节敏感度较低等。

基于编码器—解码器架构的方法：该类方法的优势在于可以更多地感知到全局上下文信息，并且能够在训练样本缺少的情况下取得良好的分割性能。尽管U-Net在医学图像分割领域取得了很大成功，但在特征提取与特征拼接方面存在一定提升空间；例如，原始U-Net使用3×3卷积进行特征提取，无法获得多尺度感受野；虽然U-Net编码器提取的特征具有丰富的图像细节信息，解码器提取的特征包含更多的高级语义特征，但是原始U-Net中的特征拼接操作无法充分利用细节信息与语义特征的依赖关系。

发明内容

为解决上述问题，本发明将残差Inception模块与双向ConvGRU模块结合，提出了一种融合残差Inception与双向ConvGRU的皮肤病变分割方法，该方法提出了新的皮肤病变智能分割模型，在传统U-Net模型的基础上进行改进，即在编码器的卷积操作中使用残差Inception模块，在编码器的拼接操作中应用双向ConvGRU模块，可提升模型特征提取与捕获上下文信息能力，设计出的编码器与解码器能够增加网络的深度与宽度以及减少参数，充分联系图像的低级特征信息与高级语义特征既可提取时序信息，又可有效提取空间特征，解决无法提取多尺度特征、充分利用底层特征与语义特征的关系的问题，更好地感知全局上下文信息。

本发明所述的融合残差Inception与双向ConvGRU的皮肤病变分割方法，包括以下步骤：

步骤1、构建云边协同的皮肤病变智能分割服务网络；

步骤2、基于所述分割服务网络，构建一个基于U-Net的皮肤病变智能分割模型；

步骤3、将采集的图像输入基于改进的残差Inception的编码器，提取图像特征；

步骤4、将编码器输出的特征图输入基于改进的残差Inception与双向ConvGRU的解码器，双向ConvGRU模块融合编码器产生的和解码器的上采样产生的特征图，由解码器输出分割结果。

进一步的，所述编码器包含四个结构相同的编码器子模块，每个编码器子模块包括两个残差Inception模块、一个线性整流函数(Rectified Linear Units,ReLU)的激活函数及一个用于实现下采样的2×2最大池化层。

进一步的，所述残差Inception模块包含三个1×1卷积核与三个3×3卷积核；前层的输出经过三组不同的卷积操作后，得到具有三组不同感受野的特征图；三组特征图进行拼接后，前层输出的特征图经过残差连接与之相加；残差连接的实现定义为：

m＝F(n,{c_i})+n

其中，n与m是残差Inception模块的输入与输出，F函数表示残差Inception模块中的各个操作，c_i表示各个卷积操作的权重，i为1-k的数值，k为Inception模块中卷积核的总数。

进一步的，所述解码器包含四个结构相同的解码器子模块，每个解码器子模块包括一个双向ConvGRU模块、三个残差Inception模块和在Inception模块的一个Relu激活函数层，每个解码器子模块之后有一个批标准化层及一个用于上采样的2×2反卷积层。

进一步的，所述双向ConvGRU包括一个前向ConvGRU与一个后向ConvGRU，前向ConvGRU 从左至右控制序列，后向ConvGRU从右至左控制序列；

前向隐藏状态

与后向隐藏状态

分别与对应权重相乘，并将结果相加得到最终的隐藏状态h_t，即双向ConvGRU的最终输出结果为y_t：

其中，

与

分别对应输出层中前向ConvGRU与后向ConvGRU的权重。

进一步的，步骤1中，所述分割服务网络包括用户、边缘服务器、云服务器和医疗机构；

所述用户上传图像至边缘服务器；

所述边缘服务器接收云服务器的训练参数后为用户提供分割服务；边缘服务器将图片输入至分割模型，然后将接收到的分割结果发送至用户，并同时存储诊断业务中的样本；对置信度高的分割结果，边缘服务器存储该结果及原始图片，对置信度低分割结果，边缘服务器将该结果及原始图像发送至医疗机构校正，经过校正的样本将发送至边缘服务器进行存储，边缘服务器中的新样本作为扩充的训练样本用于后续的模型的训练；

所述云服务器对医疗机构提供的数据集进行训练，并将训练参数上传到边缘服务器；

所述医疗机构为云服务器中的模型训练模块提供训练样本，并对边缘服务器中分割结果置信度较低的样本进行校正，然后将校正好的样本反馈给边缘服务器。

本发明的有益效果为：构建了一个融合残差Inception与双向ConvGRU的皮肤病变分割方法，设计了基于U-Net的分割模型架构，在所设计的分割模型的编码器中应用残差Inception模块及在解码器中应用双向ConvGRU模块，其中残差Inception模块采用不同大小的卷积核获得不同的感受野，对不同的特征图进行拼接，融合不同尺度的特征，可提高计算资源的利用率与图形特征提取的效率，从而提高模型特征提取能力。采用ConvGRU结构，使用卷积计算代替原始GRU的全连接层，既提取时序信息，又有效提取空间特征。此外，本发明利用双向ConvGRU模块可以充分学习两个方向的数据依赖关系，能够更好地考虑图像中时间序列的所有信息，从而提升捕获上下文信息的能力。

附图说明

图1为皮肤病变智能分割服务网络模型示意图；

图2为皮肤病变分割模型架构示意图；

图3为残差Inception模块示意图；

图4为ConvGRU结构示意图；

图5为双向ConvGRU模块结构示意图；

图6为accuracy与loss随迭代次数的变化示意图；

图7为不同模型的accuracy与Jaccard系数对比示意图；

图8为测试图片样例。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

本发明公开一种融合残差Inception与双向ConvGRU的皮肤病变分割方法，包括如下步骤：

S1、构建了云边协同的皮肤病变智能分割服务网络。该网络架构如图1所示，由四个部分组成：用户、边缘服务器、云服务器与医疗机构；图1展示了这四个组成部分之间的关系。

用户：由几种类型的用户终端组成，如平板电脑、智能手机、笔记本电脑与个人电脑等。主要考虑两类用户，包括普通患者与皮肤科医生。具体来说，普通患者可使用相机或手机拍摄皮肤病照片，通过将照片上传至客户端来生成分割服务请求；然后，客户端会把该请求发送给边缘服务器；最后，患者会接收到边缘服务器的服务响应，即获得相应的分割结果。相类似地，当皮肤科医生有辅助分割需求时，可将皮肤镜图片上传至客户端，获得由边缘服务器返回的分割结果，作为准确诊断的基础，反馈的分割结果可提高最终诊断的准确率。

边缘服务器：边缘服务器器的主要功能是在接收到云服务器的分割模型参数后，为用户提供分割服务。当边缘服务器接收到用户的服务请求时，将图片输入至分割模型，然后把分割结果发送至用户。此外，边缘服务器会存储诊断业务中的相关样本。对于置信度高的分割结果，服务器会存储该结果及其原始图片。对于置信度低的结果，服务器会将其与原始图像发送至医疗机构校正，经过校正的样本将发送至边缘服务器进行存储。最后，边缘服务器中的新样本会作为扩充的训练样本用于后续的模型训练。在实验时事先预设个标准，一般以准确率及Jaccard作为评估指标，来判断置信度的高低。

云服务器：由于模型训练对计算资源的高度依赖，因此其被部署在云端。模型在云服务器中基于医疗机构提供的数据集进行训练，并将训练参数上传到边缘服务器。同时，基于边缘服务器在提供服务过程中涉及到的新样本，模型能够进一步获得精度提升。

医疗机构：医疗机构主要有两个功能：1)为云服务器中的模型训练模块提供训练样本，样本主要由两部分来源构成，包括国际皮肤成像合作组织(International SkinImaging Collaboration,ISIC)提供的公开数据集与医疗机构在提供诊断服务过程中收集的相关数据； 2)为边缘服务器中分割结果置信度较低的样本进行校正，然后将校正好的样本反馈给边缘服务器。

S2、本发明所设计的融合残差Inception与双向ConvGRU的分割模型总体架构如图2所示。与经典的U-Net类似，该模型整体架构由左侧的编码器与右侧的解码器组成，基于提升模型特征提取与捕获上下文信息能力，本部分重新设计了编码器与解码器，具体的设计如下：

编码器：编码器为典型的卷积神经网络结构，它包括两个卷积操作与一个用于下采样的2 ×2最大池化。在每个下采样操作后，特征通道的数量将增加一倍。与原始U-Net不同的是，为了更好地提取空间特征，卷积操作使用了残差Inception模块，并且该设计没有对输入特征图的尺寸带来改变。

解码器：解码器包括一个用于上采样的2×2的批标准化(Batch Normalization，BN)操作，两个使用残差Inception模块的卷积操作和一个特征拼接操作。解码器将进行四次上采样操作，在每次上采样操作后，特征图的尺寸将增大一倍，特征通道的数量将减少一半。为了使网络能够更加有效地利用浅层特征与深层特征的关系，在原始U-Net的拼接操作中应用了双向ConvGRU模块。此外，本发明在上采样后添加的一个批标准化操作用来提高神经网络的稳定性与训练速度。在最后一层，使用1×1卷积核生成与原始输入图像大小相同的特征图。

S3、基于GoogLeNet的Inception模块与ResNet的残差思想，本发明设计了一种残差 Inception模块代替传统U-Net中的3×3卷积操作。一般来说，增加模型的深度与宽度是提高模型性能最直接的方法。但增加深度与宽度意味着参数的增加，具有大量参数的模型训练极其耗费计算资源，并且容易产生过拟合问题。为了解决这些问题，Inception模块被引入到 U-Net中。通过增加网络的深度与宽度以及减少参数，Inception模块可提高计算资源的利用率与图像特征提取的效率。Inception模块采用不同大小的卷积核获得不同的感受野，最后对不同的特征图进行拼接，融合不同尺度的特征。特别地，为了解决随着网络加深而出现的网络退化问题，如梯度消失与梯度爆炸，本发明在Inception模块中添加了残差连接。

设计的残差Inception模块整体结构如图3所示。它有三个1×1卷积核与三个3×3卷积核。它采用1×1卷积来减少输出特征图的通道数，这相当于减少参数的数量。其中，第一条路径采用一个1×1卷积核，第二条路径采用一个1×1卷积核和一个3×3卷积核，前两条路径与原始的Inception模块相同；而第三条路径与原始的Inception模块不同，设计的模块使用了一个1×1卷积核和两个3×3卷积核，而不是一个1×1卷积核和一个5×5卷积。两个3×3的卷积核与一个5×5的卷积核获得的感受野是等价的，但是参数量会少25％左右，可极大减少计算量。前层的输出经过Inception模块中三条路径中不同的卷积操作后，得到具有三组不同感受野的特征图。三组特征图进行拼接后，前层输出的特征图将会经过残差连接与之相加。残差连接的实现定义为：

m＝F(n,c_i)+n, (1)

其中，n与m是残差Inception模块的输入与输出。F函数表示上述的Inception操作，c表示其中的卷积操作。最后，每个残差Inception模块后面连接一个线性整流函数(Rectified Linear Units,ReLU)的激活函数。在利用Inception模块对图片进行卷积后，通过ReLU激活函数输出特征通道。

为了充分联系图像的低级特征信息与高级语义特征，设计的分割模型在原始U-Net的特征拼接操作中应用双向ConvGRU模块。传统的GRU在输入到状态与状态到状态的转换中使用了全连接操作，它在处理序列数据时效果显著。但是由于它没有对空间数据进行编码，包含了太多的空间数据冗余，因此它在处理图像数据时很难获得令人满意的效果。使用传统GRU处理图像数据主要存在两个问题：1)参数数量太大；2)可能会忽略像素间的空间相关性。

为了解决这个问题，设计的模型引入了ConvGRU结构，该结构使用卷积计算代替原始GRU 的全连接层，这使其既可提取时序信息，又可有效提取空间特征，ConvGRU的结构如图4所示。ConvGRU中的各部分作用如下：

更新门z_t：更新门z_t用于判断前一个时刻隐藏状态h_t-1对当前时刻的输入x_t的重要程度。 h_t-1越重要，其被带入至当前时刻隐藏状态h_t的信息就越多。z_t的计算公式为：

z_t＝σ(w_xz*x_t+w_hz*h_t-1), (2)

其中，w_xz与w_hz分别对应更新门z_t中x_t与h_t-1的权重，x_t为当前时刻的输入，*为卷积操作，σ为 sigmoid激活函数，用于将z_t控制在0～1之间。

重置门r_t：重置门r_t控制遗忘前一时刻状态信息的程度。r_t越小，表示遗忘得越多。r_t计算公式为：

r_t＝σ(w_xr*x_t+w_hr*h_t-1), (3)

其中，w_xr与w_hr分别对应重置门r_t中x_t与h_t-1的权重。

候选隐藏状态h′_t：完成z_t与r_t的计算后，ConvGRU将计算候选隐藏状态h′_t来帮助最后的隐藏状态h_t的计算。h′_t的计算公式为：

其中，w_xh与w_hh分别对应候选状态计算中x_t与h_t-1的权重，°为哈达玛积，tanh为双曲正切激活函数，用来将数据放缩至-1～1的范围内。

最终隐藏状态h_t：h_t保存当前时刻的信息，并将信息传递给下一个时刻。h_t计算公式为：

其中，更新门z_t决定从h′_t与h_t-1内容中保留多少信息。

传统的ConvGRU只处理正向的依赖关系，对历史信息的记忆不足，不能充分学习两个方向的数据依赖关系。为了使得网络能够更好地考虑图像中时间序列中的所有信息，本发明在 U-Net中加入双向ConvGRU模块。如图5所示，双向ConvGRU包括一个前向ConvGRU与一个后向ConvGRU。前向ConvGRU从左至右控制序列，后向ConvGRU从右至左控制序列。图5中的x_e与x_d分别为编码器输出的特征图以及对应解码器输出的特征图。前向隐藏状态

与后向隐藏状态

分别与对应权重相乘，并将结果相加即可得到最终的隐藏状态h_t，即双向ConvGRU 的最终输出结果为y_t：

其中，

与

分别对应输出层中前向ConvGRU与后向ConvGRU的权重。

S4、本发明使用ISIC 2018数据集来对模型进行训练与评估。ISIC2018数据集是国际皮肤成像合作组织发布的大型皮肤镜图像数据集，它由2594张红绿蓝颜色系统(RedGreen Blue, RGB)三通道皮肤镜病变图像构成。该数据集有七个类别皮肤病：恶性黑色素瘤、黑色素细胞痣、基底细胞癌、光化性角化病、良性角化病、皮肤纤维瘤与血管病变。

数据集按7:1:2的比例随机划分为训练集、验证集与测试集。训练数据由原始图像与相应的真实标签(ground truth)组成，真实标签为二值PNG格式图像，像素值分别为0与255。像素值0与像素值255分别表示目标病灶外与目标病灶内的区域。由于原始图像分辨率过高并且大小不一，所有图像的尺寸调整为256×256。

在模型训练过程中，使用自适应矩估计(Adaptive Moment Estimation,Adam)优化算法与二元交叉熵(Binary Cross-Entropy)来求解模型的最优参数。训练迭代数(epoch)设置为60，批大小设置为8。此外，学习率动态调整的策略也被应用。具体地，每当模型训练了6 个epoch而其性能提升未超过最小阈值1e-4，学习率将会变为当前的0.1倍。当模型经过60轮迭代时训练结束，并保存性能最优的模型。

为了对模型进行准确评估，本发明使用像素准确率(Pixel Accuracy)与Jaccard系数作为模型分割性能的评判标准。Jaccard系数是图像分割任务中最常用的性能评价指标之一，它表示真实标签A与预测分割图B的交集面积，除以真实标签A与预测分割图B的并集面积。 Jaccard系数与像素准确率的计算公式分别如下：

其中，TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性。

为了确保设计的模型训练可快速收敛，图6显示了模型在ISIC 2018数据集上accuracy与损失(Loss)随epoch的变化曲线。从图中可看出，模型收敛速度非常快。网络在第一个epoch 结束就获得了0.8以上的accuracy，并且随着epoch的增加，loss逐渐降低，accuracy逐渐提高。在30个epoch后，模型几乎收敛了，这表明模型不仅分割性能优秀，而且训练效率高。

图7显示了设计的模型与一些图像分割基准模型在ISIC 2018数据集上的性能对比。如图7 所示，与基准模型相比，本发明的模型取得了最高的分割性能，主要有以下几点原因。虽然 ResNet-50特征提取能力非常强，但是图像分割需要进行像素级的分类，这使得ResNet-50只能将每个像素周围的一个小区域作为输入，进行训练与预测。因此，ResNet-50在训练时需要大量的计算资源，并且由于输入区域的大小限制，网络只能提取局部特征信息。FCN对每个像素进行分类，这使得它无法有效地学习全局上下文信息。U-Net是FCN的一个扩展版本，它将网络编码器部分的特征拼接至解码器部分，避免了有效特征信息的丢失。而设计的模型在 U-Net的基础上，使用了残差Inception模块来提取特征，并且在特征拼接操作中应用双向 ConvGRU模块，使得网络能融合多种不同尺度的感受野，以及能够更好地感知图像的全局上下文信息，这使其在四种模型中分割性能最强，进一步验证设计的残差Inception模块与在模型中添加双向ConvGRU的有效性。

为了更加形象地展现本发明模型的分割性能，图8显示了模型在ISIC 2018数据集上的测试结果样例。对于图8中的所有皮肤病例，模型输出的分割结果与真实标签形状几乎一致，这验证了模型具备对病灶区域进行精确分割的能力。

表1不同U-Net扩展版本的accuracy与Jaccard系数对比

为了进一步评估设计的模型的分割性能，本发明还与近期提出的几种U-Net扩展方案 Res-Unet、Dense U-Net与R2U-Net进行了对比。如表1所示，本发明模型取得了最高的accuracy与Jaccard系数，分别为0.934与0.831。为了增加模型的深度，从而提高模型的准确性，Res-Unet在U-Net中加入残差连接，它取得的accuracy为0.919，Jaccard系数为0.818。DenseU-Net将U-Net中加入了Dense模块，取得了0.921的accuracy以及0.822的Jaccard系数。上述两个模型虽然缓解了模型训练过程中出现的梯度消失与梯度爆炸问题，但是在特征提取方面还有提升空间。R2U-Net的accuracy与Jaccard系数分别为0.929与0.827。该模型在U-Net加入了循环残差卷积模块，增加了网络深度，从而提高了模型的特征提取能力，但是其利用上下文信息的能力依旧欠缺。与上述方法相比，本发明模型不仅加入残差Inception模块提高模型的特征提取能力，还使用双向ConvGRU使得网络能够更好地学习图像的时空上下文信息，因此取得了最高的性能指标，这体现了本发明模型相比其他方法的优势。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.融合残差Inception与双向ConvGRU的皮肤病变分割方法，其特征在于，包括以下步骤：

步骤1、构建云边协同的皮肤病变智能分割服务网络；

2.根据权利要求1所述的融合残差Inception与双向ConvGRU的皮肤病变分割方法，其特征在于，所述编码器包含四个结构相同的编码器子模块，每个编码器子模块包括两个残差Inception模块、一个线性整流函数的激活函数及一个用于实现下采样的2×2最大池化层。

3.根据权利要求2所述的融合残差Inception与双向ConvGRU的皮肤病变分割方法，其特征在于，所述残差Inception模块包含三个1×1卷积核与三个3×3卷积核；前层的输出经过三组不同的卷积操作后，得到具有三组不同感受野的特征图；三组特征图进行拼接后，前层输出的特征图经过残差连接与之相加；残差连接的实现定义为：

m＝F(n，{c_i})+n

4.根据权利要求1所述的融合残差Inception与双向ConvGRU的皮肤病变分割方法，其特征在于，所述解码器包含四个结构相同的解码器子模块，每个解码器子模块包括一个双向ConvGRU模块、三个残差Inception模块和在Inception模块后的一个Relu激活函数层，每个解码器子模块之后有一个批标准化层及一个用于上采样的2×2反卷积层。

5.根据权利要求4所述的融合残差Inception与双向ConvGRU的皮肤病变分割方法，其特征在于，所述双向ConvGRU包括一个前向ConvGRU与一个后向ConvGRU，前向ConvGRU从左至右控制序列，后向ConvGRU从右至左控制序列；

前向隐藏状态

与后向隐藏状态

其中，

与

分别对应输出层中前向ConvGRU与后向ConvGRU的权重。

6.根据权利要求1所述的融合残差Inception与双向ConvGRU的皮肤病变分割方法，其特征在于，步骤1中，所述分割服务网络包括用户、边缘服务器、云服务器和医疗机构；

所述用户上传图像至边缘服务器；