CN116128898A - 一种基于Transformer双分支模型的皮肤病变图像分割方法 - Google Patents

一种基于Transformer双分支模型的皮肤病变图像分割方法 Download PDF

Info

Publication number
CN116128898A
CN116128898A CN202310128980.2A CN202310128980A CN116128898A CN 116128898 A CN116128898 A CN 116128898A CN 202310128980 A CN202310128980 A CN 202310128980A CN 116128898 A CN116128898 A CN 116128898A
Authority
CN
China
Prior art keywords
module
feature
branch
transducer
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310128980.2A
Other languages
English (en)
Inventor
李永红
李梓歆
赵志强
周诚
胡晋武
张合龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310128980.2A priority Critical patent/CN116128898A/zh
Publication of CN116128898A publication Critical patent/CN116128898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30088Skin; Dermal

Abstract

本发明属于计算机视觉技术领域,具体涉及一种基于Transformer双分支模型的皮肤病变图像分割方法;该方法构建并训练Transformer双分支模型,将待处理图像输入到训练好的Transformer双分支模型中得到分割结果;所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块;本发明提出了一种新的皮肤病变图像分割方法,解决了传统深度学习方法提取全局上下文信息的不足,利用高效的多尺度视觉Transformer作为编码器,从而提取更强大且更好鲁棒性的特征,同时引入低级特征模块和高级特征融合模块,有效地提升网络的特征学习能力和分割性能。

Description

一种基于Transformer双分支模型的皮肤病变图像分割方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于Transformer双分支模型的皮肤病变图像分割方法。
背景技术
皮肤病(dermatosis)是发生在皮肤和皮肤附属器官疾病的总称,常见的皮肤病有湿疹、荨麻疹、黄褐斑、水痘、色素障碍性皮肤病等。其中,恶性黑色素瘤是由皮肤和其他器官黑素细胞产生的肿瘤,它是导致皮肤肤色素性病变中最致命的一种皮肤癌。恶性黑色素瘤的发生率和死亡率逐年升高,根据皮肤癌基金会的统计数据,它的致死率甚至高达75%。恶性黑色素瘤除早期手术切除外,缺乏特效治疗,因此恶性黑色素瘤的早期诊断和治疗极其重要,但是由于皮肤的表面存在很多不可控因素,比如毛发、血管、颜色以及病变皮肤和未病变皮肤之间的对比度低等,经验丰富的专业医生不仅无法准确地判断出皮肤上的病变区域,还可能在判断时带有主观看法。因此需要借助计算机辅助诊断系统提高对黑色素瘤的检测,而对皮肤病图像的分割就是计算机辅助诊断里十分重要的环节。
传统的医学分割方法主要依赖于低级特征,如纹理、几何特征、简单的线性迭代聚类超像素等。这些方法实现起来程序繁琐,并且泛化能力较差,不能满足实际应用的复杂场景分割精度要求。近年来,深度学习在医学图像分割领域得到了广泛的应用,特别是U型网络结构,其采用多尺度特征进行重建的能力引起了极大的关注。这些方法在准确性和泛化能力上都取得了相当不错的效果。但是皮肤病图像存在大量噪声,图像本身边界区域模糊,皮肤的颜色不同,血管的模糊等都会影响模型对特征的提取,在皮肤病的边界区域也很难准确定位。基于CNN的模型在特征提取过程中执行下采样,以减少计算量,这样很容易导致细节信息丢失。因此,需要更多的全局上下文信息进行推理。但是由于卷积运算的局限性,很难直接在全局上下文信息上建模。
发明内容
为解决上述问题,本发明提供了一种基于Transformer双分支模型的皮肤病变图像分割方法,该方法构建并训练Transformer双分支模型,将待处理图像输入到训练好的Transformer双分支模型中得到分割结果;所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块;
所述Transformer双分支模型的训练过程包括:
S1.获取皮肤病变图像数据集并进行预处理得到训练图像集;
S2.将训练图像输入到辅助分支网络提取低级特征并输出第二分割图;
S3.将辅助分支网络提取的低级特征输入到主分支网络提取出多尺度的高级特征,并输出第一分割图;
S4.采用信息聚合模块融合第一分割图和第二分割图得到最终分割图;
S5.通过最终损失函数计算损失并反向传播训练Transformer双分支模型,直至模型收敛。
进一步的,基于ResT架构搭建Transformer双分支模型,所述ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块;每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块,每个高效transformer模块均由EMSA、FFN以及残差链接构成;从ResT架构中的Steam模块处延伸出一条分支构建辅助分支网络;从ResT架构中的stage1模块到stage4模块各延伸出一条分支,通过这四条分支构建主分支网络。
进一步的,主分支网络中设有一个高级特征融合模块,用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接,具体包括:
S11.stage1模块输出高级特征X1,stage2模块输出高级特征X2,stage3模块输出高级特征X3,stage4模块输出高级特征X4
S12.对高级特征X4上采样后分别经过卷积单元
Figure BDA0004083164900000031
Figure BDA0004083164900000032
得到特征
Figure BDA0004083164900000033
和特征
Figure BDA0004083164900000034
将特征
Figure BDA0004083164900000035
和高级特征X3的乘积与特征
Figure BDA0004083164900000036
进行拼接,通过卷积单元
Figure BDA0004083164900000037
处理该拼接结果得到融合特征图X′3
S13.对融合特征图X′3上采样后经过卷积单元
Figure BDA0004083164900000038
得到特征X″31,对特征
Figure BDA0004083164900000039
和高级特征X3的乘积上采样后与高级特征X2相乘得到特征X″32,将特征X″32与特征X″31进行拼接后经过卷积单元
Figure BDA00040831649000000310
得到融合特征图X′2
S14.对融合特征图X′2上采样后经过卷积单元
Figure BDA00040831649000000311
得到特征X″21,对特征X″32上采样后与高级特征X1相乘得到特征X″22,将特征X″22与特征X″21进行拼接后依次经过卷积单元
Figure BDA00040831649000000312
和卷积单元
Figure BDA00040831649000000313
得到第一分割图T1
进一步的,辅助分支网络中设有组合注意力模块,用于提取Steam模块输出的低级特征X0的细节信息,所述组合注意力模块包括空间注意力机制和通道注意力机制;辅助分支网络的具体处理过程包括:
S21.将训练图像输入到Steam模块提取得到低级特征X0
S22.通过通道注意力机制处理低级特征X0得到通道特征,将通道特征依次通过ReLU层和1×1卷积层得到原始维度通道特征;
S23.通过空间注意力机制处理原始维度通道特征得到第二分割图。
进一步的,通道注意力机制的处理公式表示为:
Atc(X0)=σ(M1(AvgPool(X0))+M2(MaxPool(X0))
其中,σ(·)表示softmax激活函数,AvgPool(·)表示自适应平均池化,MaxPool(·)表示自适应最大池化,M1、M2表示核大小为1×1的卷积层;
空间注意力机制的处理公式表示为:
Figure BDA00040831649000000314
其中,
Figure BDA0004083164900000041
表示7×7卷积层,Cmax(·)表示沿着通道维度得到的最大值,Cavg(·)表示表示沿着通道维度得到的平均值。
进一步的,步骤S4采用信息聚合模块融合第一分割图T1和第二分割图T2得到最终分割图的过程包括:
S31.将第一分割图T1分别通过线性映射函数Wθ(·)和
Figure BDA0004083164900000042
得到特征映射Q和特征映射K;
S32.对经过卷积单元Wg(·)的第二分割图T2应用softmax函数得到特征T′2,计算特征映射K与特征T′2间的Hadamard乘积并进行池化得到特征V;
S33.通过内积建立特征映射K和特征V之间的像素相关性,得到相关注意图F;计算相关注意图F与特征映射Q的乘积并送入图卷积网络得到特征G;
S34.计算相关注意图F与特征G的内积得到重构特征X`,将重构特征X`经过卷积层Wz(·)后与第一分割图T1拼接得到最终分割图。
进一步的,最终损失函数
Figure BDA0004083164900000043
包括主损失函数
Figure BDA00040831649000000410
和辅助损失函数
Figure BDA0004083164900000044
表示为:
Figure BDA0004083164900000045
Figure BDA0004083164900000046
Figure BDA0004083164900000047
其中,
Figure BDA0004083164900000048
表示加权交并比损失,
Figure BDA0004083164900000049
表示加权二元交叉熵损失,G1表示预测的第二分割图所对应的真实值,G2表示预测的最终分割图所对应的真实值,P1和P2分别表示预测的第一分割图和最终分割图。
本发明的有益效果:
本发明提供了一种基于Transformer双分支模型的皮肤病变图像分割方法,该方法基于ResT构建了一个Transformer双分支模型,实现对多尺度高级特征和低级特征地有效挖掘,该模型学习到的多尺度特征更强大、更具鲁棒性,且其能够保持较快的推理速度。
本发明设计的模型包括主分支网络、辅助分支网络和信息聚合模块,辅助分支网络通过空间注意力机制和通道注意力机制,分别学习了空间和通道的重要性,更加关注皮肤病灶区域的细节信息,抑制了无用信息。为了更好地利用多尺度上下文信息,在主分支网络设计了级联融合的方式从高级特征中收集皮肤病灶的语义和位置信息,从而增强解码器的解码能力。最后采用信息聚合模块实现不同级别的特征融合方式,提升了模型对多样、复杂的皮肤病灶图像的表达能力。
本发明还考虑到不同级别特征之间的贡献差异,对双分支网络生成的不同级别的特征图采用了图卷积方法,并且在图卷积下引用了非局部操作,实现信息聚合模块,从而有效地提升了对皮肤病灶区域的分割性能。
附图说明
图1为本发明实施例的ResT架构图;
图2为本发明基于Transformer双分支模型的皮肤病变图像分割方法的流程图;
图3为本发明的Transformer双分支模型的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
南京大学团队在文献ResT:An efficient transformer for visualrecognition[J]中提出了一种高效Transformer架构:ResT,如图1所示,其包括一个Steam模块和4个stage模块,每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块,每个高效transformer模块均由EMSA、FFN以及残差链接构成;ResT架构采用了类似ResNet的设计思想:Steam模块提取底层特征信息,多个stage模块捕获多尺度特征信息。与此同时,为解决MSA存在的计算量与内存占用问题,提出了EMSA模块进一步降低计算量与内存消耗。所提ResT在图像分类、目标检测以及实例分割等任务均取得了显著的性能提升,比如在ImageNet数据上,在同等计算量前提下,所提方法取得了优于PVT、Swin的优异性能,是一种强力骨干网络。
同时考虑到依赖于低级特征(如纹理、几何特征、简单的线性迭代聚类超像素等)的分割方法往往分割性能低质量、泛化能力较差,且传统的神经网络CNN学习全局上下文信息能力有限。本发明实例提出了一种基于Transformer双分支模型的皮肤病变图像分割方法,该方法中将ResT和U-net结构网络作为基本框架搭建Transformer双分支模型,训练Transformer双分支模型,将待处理图像输入到训练好的Transformer双分支模型中得到分割结果。
具体地,如图2所示,所述Transformer双分支模型的训练过程包括:
S1.获取皮肤病变图像数据集,如ISBI2017数据集,并进行预处理得到训练图像集;
S2.将训练图像输入到辅助分支网络提取低级特征并输出第二分割图;
S3.将辅助分支网络提取的低级特征输入到主分支网络提取出多尺度的高级特征,并输出第一分割图;
S4.采用信息聚合模块融合第一分割图和第二分割图得到最终分割图;
S5.通过最终损失函数计算损失并反向传播训练Transformer双分支模型,直至模型收敛。
在一实施例中,Transformer双分支模型的具体结构如图3所示,本实施例采用ResT架构作为主干编码器,该ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块;然后从Steam模块处延伸出一条分支构建辅助分支网络;从stage1模块到stage4模块各延伸出一条分支,通过这四条分支构建主分支网络。
具体地,主分支网络中设有一个高级特征融合模块AFFM,用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接,具体包括:
S11.输入大小为H×W×C的训练图像,H表示训练图像的高,W表示训练图像的宽,C表示训练图像的通道数。stage1模块输出大小为
Figure BDA0004083164900000071
的高级特征X1,stage2模块输出大小为
Figure BDA0004083164900000072
的高级特征X2,stage3模块输出大小为
Figure BDA0004083164900000073
的高级特征X3,stage4模块输出大小为
Figure BDA0004083164900000074
的高级特征X4
S12.将高级特征X4上采样得到大小为
Figure BDA0004083164900000075
的上采样结果,将该上采样结果分别经过卷积单元
Figure BDA0004083164900000076
Figure BDA0004083164900000077
得到特征
Figure BDA0004083164900000078
和特征
Figure BDA0004083164900000079
将特征
Figure BDA00040831649000000710
和高级特征X3的乘积与特征
Figure BDA00040831649000000711
进行拼接,通过卷积单元
Figure BDA00040831649000000712
平滑处理该拼接结果得到大小为
Figure BDA00040831649000000713
的融合特征图X3′,用公式表示为:
Figure BDA00040831649000000714
Figure BDA00040831649000000715
Figure BDA00040831649000000716
其中,
Figure BDA00040831649000000717
表示Hadamard乘积运算,Contact表示沿特征通道维度进行拼接,Upsample(·)表示上采样,卷积单元
Figure BDA00040831649000000718
Figure BDA00040831649000000719
都是卷积核大小为3×3、padding设置为1、含有批归一化和ReLU的卷积层。
S13.将融合特征图X′3上采样放大到
Figure BDA00040831649000000720
后经过卷积单元
Figure BDA00040831649000000721
得到特征X″31,对特征
Figure BDA00040831649000000722
和高级特征X3的乘积上采样放大到
Figure BDA00040831649000000723
后与高级特征X2相乘得到特征X″32,将特征X″32与特征X″31进行拼接后经过卷积单元
Figure BDA0004083164900000081
得到大小为
Figure BDA0004083164900000082
的融合特征图X′2,用公式表示为:
Figure BDA0004083164900000083
Figure BDA0004083164900000084
Figure BDA0004083164900000085
其中,卷积单元
Figure BDA0004083164900000086
Figure BDA0004083164900000087
都是卷积核大小为3×3、padding设置为1、含有批归一化和ReLU的卷积层。
S14.将融合特征图X′2上采样放大到
Figure BDA0004083164900000088
后经过卷积单元
Figure BDA0004083164900000089
得到特征X″21,对特征X″32上采样放大到
Figure BDA00040831649000000810
后与高级特征X1相乘得到特征X″22,将特征X″22与特征X″21进行拼接后依次经过卷积单元
Figure BDA00040831649000000811
卷积单元
Figure BDA00040831649000000812
得到大小为
Figure BDA00040831649000000813
的第一分割图T1,用公式表示为:
Figure BDA00040831649000000814
Figure BDA00040831649000000815
Figure BDA00040831649000000816
具体地,为了充分提取皮肤病变区域的细节信息,辅助分支网络中设有组合注意力模块LFM,用于提取Steam模块输出的低级特征X0各个维度的细节信息,所述组合注意力模块LEM包括空间注意力机制和通道注意力机制,主要在空间和通道两个维度上推断出注意力权重系数;辅助分支网络的具体处理过程包括:
S21.将训练图像输入到Steam模块提取得到大小为
Figure BDA00040831649000000817
的低级特征X0
S22.通过通道注意力机制处理低级特征X0得到通道特征,将通道特征依次通过ReLU层和1×1卷积层来恢复原始通道维度得到原始维度通道特征;通道注意力机制的处理公式表示为:
Atc(X0)=σ(M1(AvgPool(X0))+M2(MaxPool(X0))    (10)
其中,σ(·)表示softmax激活函数,AvgPool(·)表示自适应平均池化,MaxPool(·)表示自适应最大池化;M1、M2表示核大小为1×1的卷积层,用于将通道数降低16倍。
S23.通过空间注意力机制处理原始维度通道特征得到第二分割图T2;空间注意力机制的处理公式表示为:
Figure BDA0004083164900000091
其中,
Figure BDA0004083164900000092
表示7×7卷积层,填充设置为3;Cmax(·)表示沿着通道维度得到的最大值,Cavg(·)表示表示沿着通道维度得到的平均值。
具体地,信息聚合模块IAM采用图卷积去挖掘来自双分支网络中不同语义级别的信息的关联性,同时为了更好地融合不同语义级别的信息,本实施例在图卷积中引用了非局部操作来实现信息聚合,通过全局注意力将皮肤病的细节信息注入到高级信息中,具体过程包括:
S31.将包含高级信息的第一分割图T1分别通过线性映射函数Wθ(·)和
Figure BDA0004083164900000096
进行降维映射,得到大小均为
Figure BDA0004083164900000093
的特征映射Q和特征映射K;用公式表示为:
Q=Wθ(T1)    (12)
Figure BDA0004083164900000094
这里的线性映射函数选用核大小为1×1的卷积运算。
S32.采用卷积单元Wg(·)将第二分割图T2的通道维度减少到32,然后在通道维度上应用softmax函数得到大小为
Figure BDA0004083164900000095
的特征T′2,计算特征映射K与特征T′2间的Hadamard乘积,这是为不同像素分配不同权重,从而增加边缘像素权重,最后进行池化得到特征V;用公式表示为:
Figure BDA0004083164900000101
其中,AP(·)表示池化。
S33.通过内积建立特征映射K和特征V之间的像素相关性,得到相关注意图F;计算相关注意图F与特征映射Q的乘积并送入图卷积网络得到特征G;公式表示为:
Figure BDA0004083164900000102
其中,
Figure BDA0004083164900000103
表示内积,KT表示特征映射K的转置。
S34.计算相关注意图F与特征G的内积得到重构特征X`,通过核大小为1×1的卷积层Wz(·)将重构特征X`的通道维度调整到与第一分割图T1相同,然后与第一分割图T1拼接得到大小为
Figure BDA0004083164900000104
的最终分割图Z,公示表示为:
Figure BDA0004083164900000105
Z=T1+Wz(X`)    (17)
在一实施例中,Transformer双分支模型训练过程中的损失函数分为主损失函数
Figure BDA0004083164900000106
和辅助损失函数
Figure BDA0004083164900000107
两部分,主损失函数
Figure BDA0004083164900000108
是计算第一分割图T1与其真实值之间的主损失,公式为:
Figure BDA0004083164900000109
辅助损失函数
Figure BDA00040831649000001010
是计算LFM模块的输出结果T2与其真实值之间的损失,公式为:
Figure BDA00040831649000001011
其中,
Figure BDA00040831649000001012
表示加权交并比(IoU)损失,
Figure BDA00040831649000001013
表示加权二元交叉熵(BCE)损失,G1表示预测的第二分割图所对应的真实值,G2表示预测的最终分割图所对应的真实值,P1和P2分别表示预测的第一分割图和最终分割图。加权BCE损失函数考虑每个像素的重要性,并为硬像素分配更高的权重,而加权IoU损失函数更关注硬像素,使得最终损失函数在全局结构和局部细节方面约束预测图。
本发明设计的Transformer双分支模型有助于对多样、复杂的皮肤病灶图像进行有效地特征提取。具体来说,主分支网络注重于对上下文信息的学习,全局信息的关注,由于不同尺度的高级特征存在级别差异,在主分支网络中设计了高级特征融合模块,实现对高级特征的级联融合,增强了解码器的解码能力。同时辅助分支网络侧重于挖掘皮肤病灶区域的细节信息,并对来自辅助分支网络的低级特征采用了空间注意力机制和通道注意力机制,从而分别学习了空间和通道的重要性,更加关注皮肤病灶区域的细节信息,抑制无用信息,一定程度上解决图像噪声的问题。最后本发明设计了信息聚合模块,采用图卷积方法实现,探索来自主分支网络较高级别特征和辅助分支网络较低级别特征间的关系,该模块能有效地将皮肤病灶区域的低级信息和高级信息进行融合,提升了模型的分割性能。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,构建并训练Transformer双分支模型,将待处理图像输入到训练好的Transformer双分支模型中得到分割结果;所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块;
所述Transformer双分支模型的训练过程包括:
S1.获取皮肤病变图像数据集并进行预处理得到训练图像集;
S2.将训练图像输入到辅助分支网络提取低级特征并输出第二分割图;
S3.将辅助分支网络提取的低级特征输入到主分支网络提取出多尺度的高级特征,并输出第一分割图;
S4.采用信息聚合模块融合第一分割图和第二分割图得到最终分割图;
S5.通过最终损失函数计算损失并反向传播训练Transformer双分支模型,直至模型收敛。
2.根据权利要求1所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,基于ResT架构搭建Transformer双分支模型,所述ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块;每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块,每个高效transformer模块均由EMSA、FFN以及残差链接构成;从ResT架构中的Steam模块处延伸出一条分支构建辅助分支网络;从ResT架构中的stage1模块到stage4模块各延伸出一条分支,通过这四条分支构建主分支网络。
3.根据权利要求2所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,主分支网络中设有一个高级特征融合模块,用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接,具体包括:
S11.stage1模块输出高级特征X1,stage2模块输出高级特征X2,stage3模块输出高级特征X3,stage4模块输出高级特征X4
S12.对高级特征X4上采样后分别经过卷积单元
Figure FDA0004083164890000021
Figure FDA0004083164890000022
得到特征
Figure FDA0004083164890000023
和特征
Figure FDA0004083164890000024
将特征
Figure FDA0004083164890000025
和高级特征X3的乘积与特征
Figure FDA0004083164890000026
进行拼接,通过卷积单元
Figure FDA0004083164890000027
处理该拼接结果得到融合特征图X3′;
S13.对融合特征图X3′上采样后经过卷积单元
Figure FDA0004083164890000028
得到特征X31,对特征
Figure FDA0004083164890000029
和高级特征X3的乘积上采样后与高级特征X2相乘得到特征X32,将特征X32与特征X31进行拼接后经过卷积单元
Figure FDA00040831648900000210
得到融合特征图X2′;
S14.对融合特征图X2′上采样后经过卷积单元
Figure FDA00040831648900000211
得到特征X21,对特征X32上采样后与高级特征X1相乘得到特征X22,将特征X22与特征X21进行拼接后依次经过卷积单元
Figure FDA00040831648900000212
和卷积单元
Figure FDA00040831648900000213
得到第一分割图T1
4.根据权利要求1或2任一一项所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,辅助分支网络中设有组合注意力模块,用于提取Steam模块输出的低级特征X0的细节信息,所述组合注意力模块包括空间注意力机制和通道注意力机制;辅助分支网络的具体处理过程包括:
S21.将训练图像输入到Steam模块提取得到低级特征X0
S22.通过通道注意力机制处理低级特征X0得到通道特征,将通道特征依次通过ReLU层和1×1卷积层得到原始维度通道特征;
S23.通过空间注意力机制处理原始维度通道特征得到第二分割图。
5.根据权利要求4所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,通道注意力机制的处理公式表示为:
Atc(X0)=σ(M1(AvgPool(X0))+M2(MaxPool(X0))
其中,σ(·)表示softmax激活函数,AvgPool(·)表示自适应平均池化,
MaxPool(·)表示自适应最大池化,M1、M2表示核大小为1×1的卷积层;
空间注意力机制的处理公式表示为:
Figure FDA0004083164890000031
其中,
Figure FDA0004083164890000032
表示7×7卷积层,Cmax(·)表示沿着通道维度得到的最大值,Cavg(·)表示表示沿着通道维度得到的平均值。
6.根据权利要求1所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,步骤S4采用信息聚合模块融合第一分割图T1和第二分割图T2得到最终分割图的过程包括:
S31.将第一分割图T1分别通过线性映射函数Wθ(·)和
Figure FDA00040831648900000311
得到特征映射Q和特征映射K;
S32.对经过卷积单元Wg(·)的第二分割图T2应用softmax函数得到特征T2′,计算特征映射K与特征T2′间的Hadamard乘积并进行池化得到特征V;
S33.通过内积建立特征映射K和特征V之间的像素相关性,得到相关注意图F;计算相关注意图F与特征映射Q的乘积并送入图卷积网络得到特征G;
S34.计算相关注意图F与特征G的内积得到重构特征X`,将重构特征X`经过卷积层Wz(·)后与第一分割图T1拼接得到最终分割图。
7.根据权利要求1所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,最终损失函数
Figure FDA0004083164890000033
包括主损失函数
Figure FDA0004083164890000034
和辅助损失函数
Figure FDA0004083164890000035
表示为:
Figure FDA0004083164890000036
Figure FDA0004083164890000037
Figure FDA0004083164890000038
其中,
Figure FDA0004083164890000039
表示加权交并比损失,
Figure FDA00040831648900000310
表示加权二元交叉熵损失,G1表示预测的第二分割图所对应的真实值,G2表示预测的最终分割图所对应的真实值,P1和P2分别表示预测的第一分割图和最终分割图。
CN202310128980.2A 2023-02-17 2023-02-17 一种基于Transformer双分支模型的皮肤病变图像分割方法 Pending CN116128898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310128980.2A CN116128898A (zh) 2023-02-17 2023-02-17 一种基于Transformer双分支模型的皮肤病变图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310128980.2A CN116128898A (zh) 2023-02-17 2023-02-17 一种基于Transformer双分支模型的皮肤病变图像分割方法

Publications (1)

Publication Number Publication Date
CN116128898A true CN116128898A (zh) 2023-05-16

Family

ID=86306153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310128980.2A Pending CN116128898A (zh) 2023-02-17 2023-02-17 一种基于Transformer双分支模型的皮肤病变图像分割方法

Country Status (1)

Country Link
CN (1) CN116128898A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721112A (zh) * 2023-08-10 2023-09-08 南开大学 基于双分支解码器网络的水下伪装物体图像分割方法
CN116934754A (zh) * 2023-09-18 2023-10-24 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721112A (zh) * 2023-08-10 2023-09-08 南开大学 基于双分支解码器网络的水下伪装物体图像分割方法
CN116721112B (zh) * 2023-08-10 2023-10-24 南开大学 基于双分支解码器网络的水下伪装物体图像分割方法
CN116934754A (zh) * 2023-09-18 2023-10-24 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置
CN116934754B (zh) * 2023-09-18 2023-12-01 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置

Similar Documents

Publication Publication Date Title
Xia et al. A novel improved deep convolutional neural network model for medical image fusion
CN112329800B (zh) 一种基于全局信息引导残差注意力的显著性目标检测方法
CN110969124B (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN116128898A (zh) 一种基于Transformer双分支模型的皮肤病变图像分割方法
CN115482241A (zh) 一种跨模态双分支互补融合的图像分割方法及装置
CN112258526B (zh) 一种基于对偶注意力机制的ct肾脏区域级联分割方法
CN110232653A (zh) 快速轻型超分辨率重建密集残差网络
CN112819910A (zh) 基于双鬼注意力机制网络的高光谱图像重建方法
CN112949838B (zh) 基于四分支注意力机制的卷积神经网络及图像分割方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
Li et al. Automatic recognition and classification system of thyroid nodules in CT images based on CNN
CN112330724A (zh) 一种基于集成注意力增强的无监督多模态图像配准方法
CN111161271A (zh) 一种超声图像分割方法
CN113706545A (zh) 一种基于双分支神经判别降维的半监督图像分割方法
Sun et al. Super resolution reconstruction of images based on interpolation and full convolutional neural network and application in medical fields
CN117078930A (zh) 基于边界感知和注意力机制的医学图像分割方法
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
Gao A method for face image inpainting based on generative adversarial networks
Zhang et al. Remote sensing image generation based on attention mechanism and vae-msgan for roi extraction
Tang et al. HTC-Net: A hybrid CNN-transformer framework for medical image segmentation
Li et al. Low-light hyperspectral image enhancement
Gao et al. LEGAN: A Light and Effective Generative Adversarial Network for medical image synthesis
Zhou et al. Super-resolution image visual quality assessment based on structure–texture features
CN114399510A (zh) 结合图像和临床元数据的皮肤病灶分割和分类方法及系统
Wang et al. Underwater image super-resolution using multi-stage information distillation networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination