CN115311230A - 一种基于深度学习和特征融合的皮肤病变图像分割方法 - Google Patents
一种基于深度学习和特征融合的皮肤病变图像分割方法 Download PDFInfo
- Publication number
- CN115311230A CN115311230A CN202210941767.9A CN202210941767A CN115311230A CN 115311230 A CN115311230 A CN 115311230A CN 202210941767 A CN202210941767 A CN 202210941767A CN 115311230 A CN115311230 A CN 115311230A
- Authority
- CN
- China
- Prior art keywords
- feature
- model
- feature fusion
- segmentation
- skin lesion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30088—Skin; Dermal
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于深度学习和特征融合的皮肤病变图像分割方法,建立使用了编码器‑解码器结构的用于皮肤病变图像分割的模型,在模型的特征编码路径上使用EfficientNet进行了特征的学习,在特征解码路径上使用密集特征融合方法增强解码器的解码能力,并且采用了门控完全特征融合模块来提升特征融合的质量,产生解码后的特征图,解码器在最后产生输入图像的分割结果,完成皮肤病变图像的分割处理。本发明使用了更为先进的EfficientNet作为模型的编码器,使得本申请模型编码器的参数数量减少而且特征学习能力增强。通过门控机制增强了有用的编码信息向解码路径的传递,抑制了无用的特征信息所带来的干扰,提升了模型的特征融合能力。
Description
技术领域
本发明属于医用皮肤病变图像处理方法技术领域,具体涉及一种基于深度学习和特征融合的皮肤病变图像分割方法。
背景技术
近年来,黑色素瘤的患病人数有着逐年上升的趋势,黑色素瘤对人们的健康造成了很大的威胁,对它的及早诊断和治疗非常有利于延长患者的生命。皮肤病变图像分割是对皮肤病变图像分类之前关键的一步,良好的分割结果将有助于提升皮肤疾病的分类正确率,帮助临床医生更好地进行诊断。采用人工方式对采集的皮肤病变图像进行标注等对医生的专业知识和经验有较高要求,而且会消耗医生较多的时间与精力,容易出现人为失误,开发自动对皮肤病变图像进行分割的算法就显得非常必要。同时,病理组织图像有着尺寸大小变化大、形状和边界不规则、背景信息复杂和边界模糊等特点,这些特点使得皮肤病理组织分割至今仍是一个非常有挑战性的问题。
基于此,提出了一种基于深度学习和特征融合的皮肤病变图像分割方法。
发明内容
本发明所要解决的技术问题在于针对上述现有技术的不足,提供一种基于深度学习和特征融合的皮肤病变图像分割方法,以解决上述背景技术中提出的问题。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度学习和特征融合的皮肤病变图像分割方法,包括以下步骤:
建立使用了编码器-解码器结构的用于皮肤病变图像分割的模型,在模型的特征编码路径上使用EfficientNet进行了特征的学习,在特征解码路径上使用密集特征融合方法增强解码器的解码能力,并且采用了门控完全特征融合模块来提升特征融合的质量,通过门控完全特征融合模块传递过来的特征和上一个阶段产生的特征拼接之后一起经过解码操作,产生解码后的特征图,解码器在最后产生输入图像的分割结果,完成皮肤病变图像的分割处理。
进一步的,所述的模型经过深度可分离卷积处理,深度可分离卷积处理将输入的过滤和组合并生成了输出特征图的过程分解成了两个子步骤,深度卷积步骤和点卷积步骤;
深度卷积对于每个输入特征图的通道分别进行了卷积,点卷积在每个位置分别进行了1*1卷积,组合了深度卷积的结果。
进一步的,所述的模型使用了反转残差模块来辅助网络训练,反转残差模块首先使用卷积对输入特征图进行升维,之后再缩减特征图的维度,以便减少输入特征图中的特征丢失,让模型能够保存和使用有效特征。
进一步的,所述EfficientNet模型是假定α、β和γ是分别给深度、宽度和分辨率的资源系数,φ是用户控制的资源因子,那么复合系数扩展方法可以用下面表示。
depth:d=αφ
width:w=βφ
resolution:r=γφ
s.t.α·β2·γ2≈C
α≥1,β≥1,γ≥1
当对深度学习模型进行扩展时,模型的计算量消耗会增加(α·β2·γ2)φ,是由于对于普通卷积来说,模型的运算量大致正比于深度、宽度的平方和分辨率的平方。
进一步的,特征融合是门控完全特征融合模块结合支柱网络所学习到的各个特征图,使得对图像分割有益的特征更好地被模型学习和传递,从而提升模型在图像分割的最终结果。
进一步的,所述门控完全特征融合模块具体如下式所示:
G=Sigmoid(w*X)
其中,x1到xL表示的是输入特征图;
G表示的是门控信号;
上式中,不同下标的G表示的是不同层的门控信号,在门控完全特征融合模块中,对于处于位置P的特征向量,如果门控信号的值特别大,它就会阻碍其他特征图的特征向量向该阶段流动,这同时也表明了在当前位置的特征向量重要性很高;如果门控信号的值比较小,此时1-G的值比较大,其他特征图的对应位置特征向量就会流动过来,补充该位置所缺乏的特征。
进一步的,所述编码器是一个支柱网络或一个特征提取器,对输入图像所蕴含的特征进行学习,会在卷积神经网络的不同阶段编码形成不同的特征图;
所述解码器则反向地使用学习到的特征图,进行上采样并逐渐地恢复原始输入图像的分辨率,对于学习到的高级语义特征进一步解码,最终对输入图像每个像素所属的类别进行预测。
进一步的,通过所述门控完全特征融合模块来进行特征融合,可使各个编码阶段编码所生成的特征图,为解码器提供特征,将编码阶段生成的特征图以门控的方式融合成新的特征图并传递给了解码器;
解码器要对编码器生成的特征图进一步学习,借助高级语义信息和低级细节信息逐渐地进行解码,完成对于最终分割结果的构建,即门控完全特征融合模块传递过来的特征和上一个阶段产生的特征拼接之后一起经过解码操作产生解码后的特征图,解码器在最后产生输入图像的分割结果。
本发明与现有技术相比具有以下优点:
1、本发明使用了更为先进的EfficientNet作为模型的编码器,这是在皮肤病变图像分割问题上一个新的尝试,借助于被设计得更好的MBConv卷积模块,也使得本申请模型编码器的参数数量减少而且特征学习能力增强。
2、本发明在编码器-解码器结构的图像分割模型中,门控完全特征融合模块能够充分使用编码阶段所生成的各个特征图,通过门控机制增强了有用的编码信息向解码路径的传递,抑制了无用的特征信息所带来的干扰,提升了模型的特征融合能力。
3、本发明在模型的解码器中,密集特征融合方式给模型解码器提供了更丰富的特征信息,这使得模型能够学习到对于形成分割结果更加有用的信息。与此同时,深度学习的相关技术仍然在持续不断地发展,新的卷积模块,比如可变形卷积等、新的支柱网络、新的特征融合方式也都在源源不断地被设计出来,这些以深度学习为基础的新技术将为图像分割模型的各个部分提供了新的选择,为进一步提升分割模型在皮肤病变图像分割问题上的表现提供了新的可能。
附图说明
图1是本发明实施例中深度可分离卷积的卷积核与普通卷积的卷积核的对比示意图;
图2是本发明实施例中反转残差模块和残差模块的对比图;
图3是本发明实施例中EfficientNet-B0的各层参数图;
图4是本发明实施例中特征融合的一般过程示意图;
图5是本发明实施例中门控完全特征融合模块示意图;
图6是本发明实施例中编码器与解码器配合示意图;
图7是本发明实验例中皮肤病变图像示意图;
图8是本发明实验例中数据增强后的图像;
图9是本发明实验例中消融实验的分割结果图;
图10是本发明实验例中ISIC-2017数据集上本申请模型和经典模型的分割效果对比图;
图11是本发明实验例中PH2数据集上本申请模型和经典模型的分割效果对比图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例,本发明提供一种技术方案:一种基于深度学习和特征融合的皮肤病变图像分割方法,包括以下步骤:
建立使用了编码器-解码器结构的用于皮肤病变图像分割的模型,在模型的特征编码路径上使用EfficientNet进行了特征的学习,在特征解码路径上使用密集特征融合方法增强解码器的解码能力,并且采用了门控完全特征融合模块来提升特征融合的质量,通过门控完全特征融合模块传递过来的特征和上一个阶段产生的特征拼接之后一起经过解码操作,产生解码后的特征图,解码器在最后产生输入图像的分割结果,完成皮肤病变图像的分割处理。
所述的模型经过深度可分离卷积处理,深度可分离卷积处理将输入的过滤和组合并生成了输出特征图的过程分解成了两个子步骤,深度卷积步骤和点卷积步骤;
深度卷积对于每个输入特征图的通道分别进行了卷积,点卷积在每个位置分别进行了1*1卷积,组合了深度卷积的结果,深度可分离卷积的卷积核与普通卷积的卷积核的对比示意图具体如图1所示,左边展示的是深度卷积的卷积核和点卷积的卷积核,右边展示的是普通卷积的卷积核;
假设输入特征图的大小是DF×DF,输入通道数是M,卷积核的大小是K×K,输出通道数是N;1表示的是卷积核的大小,M、N和K的含义如前面假设。
普通卷积的计算量C1可以用公式1表示。对于同样的参数,深度可分离卷积的运算量C2可以用公式2表示,其中Cdepthwise和Cpointwise分别表示深度卷积和点卷积的计算量。
C1=K×K×M×N×DF×DF···········(1)
C2=Cdepthwise+Cpointwise=K×K×M×DF×DF+M×N×DF×DF···(2)
综合前面两个公式,我们可以得到深度可分离卷积和普通卷积的运算量之比为:
分析公式3可知,如果输出通道数N和卷积核大小K越大,那么将普通卷积替换为深度可分离卷积节省的运算量就越多。
在使用3*3卷积核时,深度可分离卷积的计算量大约占普通卷积的1/8到1/9,在节省计算量上具有优势。
所述的模型使用了反转残差模块来辅助网络训练,反转残差模块首先使用卷积对输入特征图进行升维,之后再缩减特征图的维度,以便减少输入特征图中的特征丢失,让模型能够保存和使用有效特征。
反转残差模块和残差模块的对比如图2所示,左侧是残差模块,使用的是普通卷积;右侧的是反转残差模块,使用的是卷积和深度卷积;两者都使用了残差连接来辅助网络训练。
与残差模块不同,反转残差模块首先使用卷积对输入特征图进行升维,之后再缩减特征图的维度,以便减少输入特征图中的特征丢失,让模型能够保存和使用有效特征。
在反转残差模块中,输入特征图首先会经过1×1卷积调整通道数,通道数会按照人为设定的扩展比率进行扩展,之后特征图会经过一个深度卷积层,进行深度卷积时会根据设计按照指定的步长进行移动,最后使用1×1卷积对特征图的通道数进行调整。
为了更好地保有输入特征图中的有效信息,反转残差模块的最后一层使用的是线性层。考虑H×W的输入大小,输入通道数为d1,输出通道数为d2,卷积核大小为k×k,扩展比率是t,那么反转残差模块的计算量如公式4所示。与公式2相比,公式4多了一项,这是因为它采用了1*1卷积来扩展相应的通道数。反转残差模块使得模型可以以更小的输入和输出通道数来实现较好的效果,在相近模型容量的条件下增强了模型的表达能力。
C3=H×W×d1×t(d1+k2+d2)·········(4)
所述EfficientNet模型是假定α、β和γ是分别给深度、宽度和分辨率的资源系数,φ是用户控制的资源因子,那么复合系数扩展方法可以用下面表示。
depth:d=αφ
width:w=βφ
resolution:r=γφ
s.t.α·β2·γ2≈C
α≥1,β≥1,γ≥1
当对深度学习模型进行扩展时,模型的计算量消耗会增加(α·β2·γ2)φ,是由于对于普通卷积来说,模型的运算量大致正比于深度、宽度的平方和分辨率的平方。
其中,EfficientNet-B0的各层参数具体如图3所示;模型共分为9个阶段,使用的卷积块主要是MBConv,MBConv是对反转残差模块修改的新的卷积模块,相应各层的分辨率、通道数和层数的变化被依次展示在图3的第三、四、五列中。
EffcientNet是通过多目标神经网络架构搜索得到的,达到了较少的运算量和较高的分类精度,本申请选择了EfficientNet来作为模型的支柱网络,以便高效地对皮肤病变图像中所蕴含的丰富特征进行编码。
特征融合方法指的是使用某种方式来结合支柱网络所学习到的各个特征图,使得对图像分割有益的特征更好地被模型学习和传递,从而提升模型在图像分割的最终结果。
图4展示了特征融合的一般过程,到表示的是M个输入特征图,到表示特征融合所产生的N个输出特征图,表示特征融合函数,通常是某种特征融合方式。
特征融合是门控完全特征融合模块结合支柱网络所学习到的各个特征图,使得对图像分割有益的特征更好地被模型学习和传递,从而提升模型在图像分割的最终结果。
所述门控完全特征融合模块具体如图5所示;
用下式所示:
G=Sigmoid(w*X)
其中,x1到xL表示的是输入特征图;
G表示的是门控信号;
上式中,不同下标的G表示的是不同层的门控信号,在门控完全特征融合模块中,对于处于位置P的特征向量,如果门控信号的值特别大,它就会阻碍其他特征图的特征向量向该阶段流动,这同时也表明了在当前位置的特征向量重要性很高;如果门控信号的值比较小,此时1-G的值比较大,其他特征图的对应位置特征向量就会流动过来,补充该位置所缺乏的特征。
所述编码器是一个支柱网络或一个特征提取器,对输入图像所蕴含的特征进行学习,会在卷积神经网络的不同阶段编码形成不同的特征图;
所述解码器则反向地使用学习到的特征图,进行上采样并逐渐地恢复原始输入图像的分辨率,对于学习到的高级语义特征进一步解码,最终对输入图像每个像素所属的类别进行预测;通过所述门控完全特征融合模块来进行特征融合,可使各个编码阶段编码所生成的特征图,为解码器提供特征,将编码阶段生成的特征图以门控的方式融合成新的特征图并传递给了解码器;
解码器要对编码器生成的特征图进一步学习,借助高级语义信息和低级细节信息逐渐地进行解码,完成对于最终分割结果的构建,即门控完全特征融合模块传递过来的特征和上一个阶段产生的特征拼接之后一起经过解码操作产生解码后的特征图,解码器在最后产生输入图像的分割结果,具体如图6所示。
在语义分割问题中,拼接、相加和FPN这几种特征融合方式都没能充分使用不同编码阶段的各个特征图,而且也没能对不同位置特征向量的重要性进行评估。
本申请使用了门控完全特征融合模块来进行特征融合,这样可以充分地使用各个编码阶段编码所生成的特征图,为解码器提供了非常丰富的特征。同时,借助门控单元,模型可以学习到哪些位置的特征向量是重要的,哪些位置的特征向量不那么重要,从而选择出对于当前的解码阶段有益的特征向量,降低解码器的解码难度。如图6所示,它将编码阶段生成的特征图以门控的方式融合成新的特征图并传递给了解码器。
与编码器起到的作用不同,解码器要对编码器生成的特征图进一步学习,借助高级语义信息和低级细节信息逐渐地进行解码,完成对于最终分割结果的构建。
图6右侧展示了解码器解码的基本过程,门控完全特征融合模块传递过来的特征和上一个阶段产生的特征拼接之后一起经过解码操作产生解码后的特征图,解码器在最后产生输入图像的分割结果。
实验例,在ISIC-2017数据集和PH2数据集上进行了实验。在ISIC-2017数据集中,训练集由2000张图片组成;包括374张恶性黑色素瘤图片和1626非恶性黑色素瘤图片,
验证集由150张图片组成,包括30张恶性黑色素瘤图片和120张非恶性黑色素瘤图片,
测试集由600张图片组成,包括117张恶性黑色素瘤图片和483张非恶性黑色素瘤图片。I
SIC-2017中的原始图像都是RGB图像,但是它们的图像分辨率变化较大,在566*679到4499*6748之间,相应的分割结果都由专家进行了详细标注。PH2数据集由200张图片构成,包括40张恶性黑色素瘤图片和160张非恶性黑色素瘤图片,图像的尺寸在553*763到577*769之间,同样也都是RGB图像;具体如图7所示。
ISIC-2017数据集中原始图像的分辨率大小差距比较大,将分辨率特别大的图像作为深度学习模型的输入会耗尽计算机的显存。经过统计发现,大多数ISIC-2017数据集中的图像长宽比接近3:4,为了更好地保存图像中的信息,本申请将所有图片的分辨率大小都调整到了。PH2数据集由于数据量太少,本申请将它作为测试集来测试模型的实际表现,所有图像的分割率在测试时同样被调整到了。
数据集对于深度学习模型来说是非常珍贵的,没有足够的训练样本很容易导致深度学习模型在训练过程中过拟合。由于皮肤病变图像的数量在分割问题上仍然显得不足,本申请使用了数据增强的方法来为模型提供更加多样的训练样本,以提升模型的最终表现。
图8展示了原图和进行了各种数据增强后的图片。本申请所使用到的数据增强方法包括:(1)上下翻转图像,(2)左右翻转图像,(3)随机旋转图像,(4)对图像进行高斯模糊处理。图7是从ISIC-2017数据集和PH2数据集中随机选出的4个皮肤病变图像和相应的标注,其中,左边的两列是ISIC-2017数据集中的图像和标注,右边的两列是PH2数据集中的图像和标注。
实验环境:本申请实验所使用的硬件环境和软件配置详情如表1。PyTorch采用了动态方式构建计算图,它提供了丰富的用于构建卷积神经网络的底层API,容易学习而且使用起来简单,所以本申请使用了PyTorch深度学习框架来实现所有的模型。本申请所有图像分割模型的搭建、训练和测试都是在该机器上进行的;
表1 实验的软硬件配置
本申请的模型一共训练了90个epoch,使用了Adam优化器来优化模型的训练,调整各层神经网络的参数。
本申请将训练批次大小设置为了8,初始学习率设置为了0.0001。为了有效地调整模型对于数据集的学习,本申请采用了余弦退火策略(cosine annealing strategy)来调整神经网络的学习率,
如公式5所示,其中α表示初始学习率,Tcur和Tmax分别表示当前epoch和最大epoch。
损失函数能够监督深度学习模型的表现,帮助模型调整相应的优化方向。在皮肤病变图像中,背景占据了图像中的大部分像素。
在ISIC-2017数据集中,超过70%的像素都被标注为背景,本申请使用了带权交叉熵损失函数与Dice损失函数之和作为最终的损失函数,如公式6所示。
其中,LTotal表示的是总的损失函数,
LWBCE和LDice分别代表带权交叉熵损失函数和Dice损失函数,
ε表示一个极小量,
对于像素i来说,wi表示像素所属类别的权重,pi表示模型预测的概率,gi表示标注。
本申请使用了两者的组合作为损失函数来尝试解决类别不平衡问题。
对皮肤病变图像进行分割是为了将皮肤病变区域和其他区域分隔开,最终生成了对于整张皮肤病变图像的预测结果。
为了衡量在ISIC2017和PH2数据集上模型的分割效果,本申请使用了准确率(Accuracy)、Jaccard系数(Jaccard Index)和Dice系数(Dice coefficient)来作为评价指标。
准确率反映了模型正确预测像素类别的能力,计算的是预测正确的像素在图像的所有像素中所占的比例;Jaccard系数反映的是预测的分割正例和实际正例的接近程度,Jaccard系数越高,假正例和假负例所占的相对比例越小,模型的分割结果和标注结果越接近;Dice系数对假正例和假负例在分割指标中所占的比例进行了一定的控制,同样比较好地反映了模型分割精度的高低。
准确率、Jaccard系数和Dice系数的计算方式如公式9、10、11。在公式中,TP、TN、FP和FN分别代表真正例、真负例、假正例和假负例。本申请将皮肤病变图像中属于病变区域的像素点定义为正例、不属于病变区域的像素点定义为负例,相对应的混淆矩阵如表2所示
表2 对于TP、FP、FN和TN的解释
为了验证本申请提出的方法的有效性,在ISIC 2017数据集上对文中模型进行了消融实验。
ISIC-2017训练集被用来训练本申请的模型,ISIC-2017测试集被用来验证本申请模型的效果。消融实验的结果被展示在表3中。
表3 消融实验的结果
本申请使用U-Net来作为基础网络进行对比。在表3中,EFU-Net表示使用修改的EfficientNet作为支柱网络的模型,GFFM表示的是门控完全特征融合模块,DFF表示的是密集特征融合方法。将模型的编码器换为修改的EfficientNet后,与基础网络相比,模型的Dice系数和Jaccard系数分别提升了2.27%和2.21%,这一方面得益于模型编码器中MBConv模块具有更强的特征提取能力,另一方面也得益于编码器在各个编码阶段对通道数和卷积核大小等进行了良好的设计,这两个优势使得EFU-Net相较U-Net具有了更强了特征编码能力,从而提升了模型在分割问题上的表现。加入门控完全特征融合模块之后,模型的Dice系数和Jaccard系数进一步提升了1.68%和1.89%,这说明与跳连接相比,门控完全特征融合模块能够更加有效地传递特征图,提升了解码器使用的输入特征图的质量。在模型的解码路径上使用DFF方法后,模型中解码器的解码能力得到了增强,因而它在准确率、Dice系数和Jaccard系数方面比EFU-Net分别提升了1.1%、1.37%和1.65%。最后,本申请将EFU-Net、门控完全特征融合模块和密集特征融合方法进行了组合并形成了最终模型,最终模型相对使用EFU-Net在准确率、Dice系数和Jaccard系数上提升了1.65%、3.01%和3.41%,这表明门控特征融合模块和密集特征融合方法可以互相补充,共同提升本申请模型的分割效果。
图9消融实验的分割结果图展示了在消融实验中随机选出的一些分割结果;
(a)列表示的是皮肤病变图像,
(b)列表示的是基础模型的分割结果,
(c)列表示的是本申请最终模型的分割结果,
(d)列表示的是标注的结果。
可以看出来,基础模型已经能够捕获病理组织的主体,也能够通过分割产生较好的分割结果,但是它对皮肤病变图像中的主体区域和边缘区域相关特征的编码能力仍有一定缺乏;得益于能够提取丰富特征图的支柱网络和模型所使用的高效特征融合方式,本申请所设计的模型对主体区域和边界区域相关特征的编码能力更强,对于细微特征和有用特征的传递能力更强,从而得到了更加接近皮肤病变图片和标注图片的分割结果。
为了证明文中所设计模型的有效性,本申请重新实现了一部分经典的图像分割模型和本申请所提的方法进行对比,包括FCN和Attention U-Net模型。
图10展示了不同模型在ISIC-2017数据集上预测的分割结果,其中白色区域表示的是预测结果是病灶的区域,黑色的区域表示的是与病灶无关的像素。
从图10中可以很明显地看到,所有的模型具有对皮肤病变图像进行分割的能力,都能在一定程度上区分病灶区域和非病灶区域。FCN和Attention U-Net都没能充分使用编码器所生成的各个阶段的特征图,相当一部分特征信息并没有被高效传递到解码器,这影响了模型对于皮肤病变图像的分割。
Attention U-Net虽然使用了注意力门(Attention Gates)来将编码器生成的特征图传递到解码阶段,但是它的设计没有考虑编码器生成的各个特征图,这使得了它在皮肤病变图像分割上的效果相对较差。本申请提出的方法在皮肤病变图像分割上的表现相对较好,因为它的编码器能够更高效地提取特征图,门控完全特征融合模块能够充分使用各个编码阶段生成的特征图,而且密集特征融合方法也使得模型解码器可以更加充分地使用解码阶段的特征图,从而使得本申请方法所产生的分割结果表现地相对更好。
表4对比了FCN-8s、Attention U-Net和本申请模型在ISIC-2017数据集上的分割结果。本申请提出的方法在准确率、Dice系数和Jaccard系数上都展现出了更好的效果;
表4 ISIC-2017数据集上本申请模型和经典模型的分割效果对比
PH2数据集是另一个非常著名的皮肤病变图像数据集。由于PH2数据集的图像数目相对较少,本申请将训练好的模型在PH2数据集上进行了测试。表5将FCN-8s、Attention U-Net和本申请方法的分割结果进行了对比,可以看出本申请模型的在准确率上略微好于FCN-8s模型,但是在Dice系数和Jaccard系数上大幅度地优于FCN-8s和Attention U-Net,对于皮肤病变图像表现出了更好的分割效果;
表5 PH2数据集上本申请模型和经典模型的分割效果对比
图11对比了各个模型在PH2数据集上的分割结果,仍然是白色像素代表病灶区域,黑色像素代表非病灶区域。最左边的一列是皮肤病变图像,第二列是Attention U-Net的分割结果,第三列是FCN-8s的分割结果,第四列是本申请模型的分割结果,最后一列是皮肤病变图像的相应标注。
FCN模型在病灶区域的边沿仍然表现地不令人满意,这是因为FCN所使用的上采样方法特征解码能力有限,而且它也并没有充分使用编码器的各个特征图来弥补解码器中所缺乏的低级特征信息。
Attention U-Net对于编码器生成的特征图的使用更好一些,但是它没能将其他阶段的特征图融合到当前阶段,也没能使用解码阶段所生成的特征图来进一步增强解码器的解码能力,因而它在皮肤病变图像上的分割表现同样受到一定限制。门控完全特征融合模块和密集特征融合方法极大地提高了本申请模型对于特征图的使用效率,本申请模型能够高效对不同阶段的特征图进行融合,同时又给解码器提供高级语义信息的指导,从而使得本申请模型在皮肤病变图像分割问题上精度更高。
对本申请模型和最近一些相关方法进行了对比。表6和表7分别展示了ISIC 2017和PH2数据集上的对比结果。
表6 本申请方法和相关方法在ISIC-2017数据集上的结果比较
表7 本申请方法和相关方法在PH2数据集上的结果比较
在ISIC 2017数据集上,本申请的方法在准确率、Dice系数和Jaccard系数上都展现出来良好的效果。依据Jaccard系数,本申请模型的结果超过了DCL-PSI 1.33%;从准确率来看,本申请方法超过了DCL-PSI 0.33%;从Dice系数上来看,本申请模型超过了FrCN0.37%。和许多同一个问题上的分割模型相比,本申请模型对皮肤病变图像仍然展现出来了较好的分割效果,这表明了本申请方法的有效性。在PH2数据集上,本申请的方法也实现了较好的分割效果,超过了之前的相关方法,这说明本申请模型具有比较好的泛化性,能够产生较好的皮肤病变图像分割结果。
在数据集ISIC-2017和PH2数据集上,本申请的方法都表现出了良好的效果,
1)本申请使用了更为先进的EfficientNet作为模型的编码器,这是在皮肤病变图像分割问题上一个新的尝试,借助于被设计得更好的MBConv卷积模块,也使得本申请模型编码器的参数数量减少而且特征学习能力增强。
2)在编码器-解码器结构的图像分割模型中,门控完全特征融合模块能够充分使用编码阶段所生成的各个特征图,通过门控机制增强了有用的编码信息向解码路径的传递,抑制了无用的特征信息所带来的干扰,提升了模型的特征融合能力。
3)在本申请模型的解码器中,密集特征融合方式给模型解码器提供了更丰富的特征信息,这使得模型能够学习到对于形成分割结果更加有用的信息。与此同时,深度学习的相关技术仍然在持续不断地发展,新的卷积模块,比如可变形卷积等、新的支柱网络、新的特征融合方式也都在源源不断地被设计出来,这些以深度学习为基础的新技术将为图像分割模型的各个部分提供了新的选择,为进一步提升分割模型在皮肤病变图像分割问题上的表现提供了新的可能。
需要说明的是,在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于深度学习和特征融合的皮肤病变图像分割方法,其特征在于,包括以下步骤:
建立使用了编码器-解码器结构的用于皮肤病变图像分割的模型,在模型的特征编码路径上使用EfficientNet进行了特征的学习,在特征解码路径上使用密集特征融合方法增强解码器的解码能力,并且采用了门控完全特征融合模块来提升特征融合的质量,通过门控完全特征融合模块传递过来的特征和上一个阶段产生的特征拼接之后一起经过解码操作,产生解码后的特征图,解码器在最后产生输入图像的分割结果,完成皮肤病变图像的分割处理。
2.根据权利要求1所述的一种基于深度学习和特征融合的皮肤病变图像分割方法,其特征在于,所述的模型经过深度可分离卷积处理,深度可分离卷积处理将输入的过滤和组合并生成了输出特征图的过程分解成了两个子步骤,深度卷积步骤和点卷积步骤;
深度卷积对于每个输入特征图的通道分别进行了卷积,点卷积在每个位置分别进行了1*1卷积,组合了深度卷积的结果。
3.根据权利要求2所述的一种基于深度学习和特征融合的皮肤病变图像分割方法,其特征在于,所述的模型使用了反转残差模块来辅助网络训练,反转残差模块首先使用卷积对输入特征图进行升维,之后再缩减特征图的维度,以便减少输入特征图中的特征丢失,让模型能够保存和使用有效特征。
4.根据权利要求3所述的一种基于深度学习和特征融合的皮肤病变图像分割方法,其特征在于,所述EfficientNet模型是假定α、β和γ是分别给深度、宽度和分辨率的资源系数,φ是用户控制的资源因子,那么复合系数扩展方法可以用下面表示。
depth:d=αφ
width:w=βφ
resolution:r=γφ
s.t.α·β2·γ2≈C
α≥1,β≥1,γ≥1
当对深度学习模型进行扩展时,模型的计算量消耗会增加(α·β2·γ2)φ,是由于对于普通卷积来说,模型的运算量大致正比于深度、宽度的平方和分辨率的平方。
5.根据权利要求4所述的一种基于深度学习和特征融合的皮肤病变图像分割方法,其特征在于,特征融合是门控完全特征融合模块结合支柱网络所学习到的各个特征图,使得对图像分割有益的特征更好地被模型学习和传递,从而提升模型在图像分割的最终结果。
7.根据权利要求6所述的一种基于深度学习和特征融合的皮肤病变图像分割方法,其特征在于,所述编码器是一个支柱网络或一个特征提取器,对输入图像所蕴含的特征进行学习,会在卷积神经网络的不同阶段编码形成不同的特征图;
所述解码器则反向地使用学习到的特征图,进行上采样并逐渐地恢复原始输入图像的分辨率,对于学习到的高级语义特征进一步解码,最终对输入图像每个像素所属的类别进行预测。
8.根据权利要求7所述的一种基于深度学习和特征融合的皮肤病变图像分割方法,其特征在于,通过所述门控完全特征融合模块来进行特征融合,可使各个编码阶段编码所生成的特征图,为解码器提供特征,将编码阶段生成的特征图以门控的方式融合成新的特征图并传递给了解码器;
解码器要对编码器生成的特征图进一步学习,借助高级语义信息和低级细节信息逐渐地进行解码,完成对于最终分割结果的构建,即门控完全特征融合模块传递过来的特征和上一个阶段产生的特征拼接之后一起经过解码操作产生解码后的特征图,解码器在最后产生输入图像的分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210941767.9A CN115311230A (zh) | 2022-08-08 | 2022-08-08 | 一种基于深度学习和特征融合的皮肤病变图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210941767.9A CN115311230A (zh) | 2022-08-08 | 2022-08-08 | 一种基于深度学习和特征融合的皮肤病变图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115311230A true CN115311230A (zh) | 2022-11-08 |
Family
ID=83861179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210941767.9A Pending CN115311230A (zh) | 2022-08-08 | 2022-08-08 | 一种基于深度学习和特征融合的皮肤病变图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115311230A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129199A (zh) * | 2023-04-13 | 2023-05-16 | 西南石油大学 | 一种可解释性的皮肤癌分类方法、装置、介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256641A (zh) * | 2021-07-08 | 2021-08-13 | 湖南大学 | 一种基于深度学习的皮肤病灶图像分割方法 |
US20220121871A1 (en) * | 2020-10-16 | 2022-04-21 | Tsinghua University | Multi-directional scene text recognition method and system based on multi-element attention mechanism |
CN114399510A (zh) * | 2021-12-25 | 2022-04-26 | 西安交通大学医学院第二附属医院 | 结合图像和临床元数据的皮肤病灶分割和分类方法及系统 |
CN114612479A (zh) * | 2022-02-09 | 2022-06-10 | 苏州大学 | 一种基于全局与局部特征重建网络的医学图像分割方法 |
-
2022
- 2022-08-08 CN CN202210941767.9A patent/CN115311230A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220121871A1 (en) * | 2020-10-16 | 2022-04-21 | Tsinghua University | Multi-directional scene text recognition method and system based on multi-element attention mechanism |
CN113256641A (zh) * | 2021-07-08 | 2021-08-13 | 湖南大学 | 一种基于深度学习的皮肤病灶图像分割方法 |
CN114399510A (zh) * | 2021-12-25 | 2022-04-26 | 西安交通大学医学院第二附属医院 | 结合图像和临床元数据的皮肤病灶分割和分类方法及系统 |
CN114612479A (zh) * | 2022-02-09 | 2022-06-10 | 苏州大学 | 一种基于全局与局部特征重建网络的医学图像分割方法 |
Non-Patent Citations (3)
Title |
---|
DING X,WANG S: "Efficient Unet with depth-aware gated fusion for automatic skin lesion segmentation", vol. 40, no. 5, pages 9963 - 9975 * |
杨聪,孔祥斌: "《智能网联汽车研究与开发丛书 智能座舱开发与实践》", 机械工业出版社, pages: 191 - 194 * |
陈莹,王一良: "基于密集特征融合的无监督单目深度估计", vol. 2021, no. 10, pages 2976 - 2984 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129199A (zh) * | 2023-04-13 | 2023-05-16 | 西南石油大学 | 一种可解释性的皮肤癌分类方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627019A (zh) | 一种基于卷积神经网络的肝脏肿瘤分割方法及系统 | |
CN113012172B (zh) | 一种基于AS-UNet的医学图像分割方法及系统 | |
CN111681252A (zh) | 一种基于多路径注意力融合的医学图像自动分割方法 | |
CN112685597B (zh) | 一种基于擦除机制的弱监督视频片段检索方法和系统 | |
CN112132833A (zh) | 一种基于深度卷积神经网络的皮肤病图像病灶分割方法 | |
CN113674253A (zh) | 基于U-Transformer的直肠癌CT影像自动分割方法 | |
CN113392711B (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
Li et al. | Advanced deep networks for 3D mitochondria instance segmentation | |
CN115311230A (zh) | 一种基于深度学习和特征融合的皮肤病变图像分割方法 | |
Hu et al. | Dear-gan: Degradation-aware face restoration with gan prior | |
CN115471470A (zh) | 一种食管癌ct图像分割方法 | |
Liu et al. | Deep image inpainting with enhanced normalization and contextual attention | |
Wang et al. | Ucl-dehaze: Towards real-world image dehazing via unsupervised contrastive learning | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN117151990B (zh) | 一种基于自注意力编码解码的图像去雾方法 | |
Yu et al. | M3U-CDVAE: Lightweight retinal vessel segmentation and refinement network | |
CN117292704A (zh) | 基于扩散模型的语音驱动姿势动作生成方法及装置 | |
CN116523985A (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN116823868A (zh) | 一种黑色素肿瘤图像分割方法 | |
CN116664435A (zh) | 一种基于多尺度人脸解析图融入的人脸复原方法 | |
Zhang et al. | Multi-scale aggregation networks with flexible receptive fields for melanoma segmentation | |
Liu et al. | Video decolorization based on the CNN and LSTM neural network | |
CN116579988A (zh) | 一种基于渐进式融合网络的脑卒中病灶分割方法 | |
Song et al. | Discriminator feature-based progressive GAN inversion | |
CN115587967A (zh) | 一种基于HA-UNet网络的眼底图像视盘检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |