CN116503431A - 基于边界引导注意力的编解码器医学图像分割系统及方法 - Google Patents
基于边界引导注意力的编解码器医学图像分割系统及方法 Download PDFInfo
- Publication number
- CN116503431A CN116503431A CN202310501603.9A CN202310501603A CN116503431A CN 116503431 A CN116503431 A CN 116503431A CN 202310501603 A CN202310501603 A CN 202310501603A CN 116503431 A CN116503431 A CN 116503431A
- Authority
- CN
- China
- Prior art keywords
- boundary
- module
- decoder
- medical image
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003709 image segmentation Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 39
- 230000003902 lesion Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000005728 strengthening Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 208000037062 Polyps Diseases 0.000 description 10
- 238000012360 testing method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 206010040882 skin lesion Diseases 0.000 description 4
- 231100000444 skin lesion Toxicity 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012733 comparative method Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000012014 frustrated Lewis pair Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于边界引导注意力的编解码器医学图像分割系统及方法,属于医学图像处理技术领域。本发明包括编码器、解码器、特征增强模块和边界引导注意力模块。医学图像输入编码器中得到不同尺度的特征,并输出至解码器;解码器根据特征完成医学图像分割;在编码器的不同尺度特征输出之后还连接有特征增强模块,用于增强编码器的语义特征,组合不同感受野的语义信息,编码器的特征输出经过特征增强模块后再进入解码器;边界引导注意力模块设置在解码器中相邻的decoder模块之间,用于强化医学图像的边界信息。本发明在泛化能力和鲁棒性上表现优秀,获得的医学图像分割结果边界清晰,小目标明显。
Description
技术领域
本发明属于医学图像处理技术领域,涉及一种基于边界引导注意力的编解码器医学图像分割系统及方法。
背景技术
卷积神经网络模型可以通过深层的卷积结构来提取图像特征,从而可以学习到更加复杂精细的图像数据表示。全卷积神经网络(Fully Convolutional Networks,FCN)是一种针对图像分割问题的端到端的卷积神经网络结构,在FCN中,全连接层被转化为卷积层,这样可以接收任意大小的输入图像,并输出与输入图像相同大小的分割结果,从而实现端到端的像素级别图像分割。但是FCN也有一些局限性,多倍的上采样导致分割得到的图像损失了很多细节信息,对图像中的细节信息处理不够充分,容易出现模糊或边缘模糊的情况,在处理复杂的背景和噪声环境时,FCN网络的性能可能会受到限制。
Unet是标准的编码器解码器架构。Unet网络结构对于医学图像分割具有天然优势,因为医学图像通常具有复杂的结构和纹理,并且需要同时分割多个不同的组织或器官,而Unet的编码器-解码器结构可以更好地处理这种多层次、多尺度的信息。因此,在医学图像分割领域,Unet已成为了许多算法的基准网络,而且有许多基于Unet的创新方法得到了广泛应用并取得了优秀的结果,基于Unet的编码器-解码器结构也被广泛创新和应用。接下来将从改进编解码器架构的几个出发点来介绍
ZHOU等人提出的Unet++将多个Unet集成到一起,这些Unet共享一个编码器,同时它们的解码器也灵活的组织叠加在一起,可以互相共享信息,协作学习。同时Unet++重新设计跳跃连接,新的跳跃结构能够融合不同尺度的特征,相比于Unet相同层次特征的相加来看,具有更好的特征融合效果。
Fang等人提出一种具有区域约束和边界约束的双解码器网络(SFA),两个解码器共享一个编码器。在编码器和两个解码器之间通过跳跃连接和将同尺度特征和经过上采样的高级特征进行融合,并在编码器中添加SKM模块,在损失函数上也为预测边界的解码器添加独有的损失函数,使整个网络对边界更敏感,分割结果有清晰的边界
然而由于医学图像中存在边界模糊,图像对比度低,以及病灶区域或器官的形状、大小、颜色和质地在图像采集的不同阶段变化较大等特性,大多数研究对小目标的分割效果较差,这对疾病的早期检测将会产生重大影响,此外,医学图像病灶区域的边界分割是具有挑战性的,因为在良性区域和边界处的病灶区域之间存在视觉干扰,而清晰的边界对于分割来说非常重要。基于此,现有分割方法性能仍然具有较大的提升空间。
发明内容
有鉴于此,本发明的目的在于提供一种基于边界引导注意力的编解码器医学图像分割系统及方法,用于医学图像的精确分割,解决小目标分割难题和边界不明显问题。
为达到上述目的,本发明提供如下技术方案:
方案一、一种基于边界引导注意力的编解码器医学图像分割系统,其包括编码器、解码器、特征增强模块和边界引导注意力模块。其中编码器用于处理输入医学图像,得到不同尺度的特征,并向输出至解码器;解码器根据特征完成医学图像分割;在编码器的不同尺度特征输出之后连接有特征增强模块,用于增强编码器的语义特征,组合不同感受野的语义信息,编码器的特征输出经过特征增强模块后再进入解码器;边界引导注意力模块设置在解码器中相邻的decoder模块之间,用于强化医学图像的边界信息。
可选地,编码器采用Res2Net作为特征提取器,医学图像经编码器提取后得到5个不同尺度的特征{Layeri,i=1,2,3,4,5}。
可选地,该系统包括两个解码器,共享一个编码器;两个解码器中,解码器decoder1用于预测边界,解码器decoder2用于预测病灶区域;其中,在解码器decoder2中,其相邻的decoder模块之间设有边界引导注意力模块,边界引导注意力模块的输入为上一层两个解码器的输出;
每个解码器均包括4个decoder模块;在解码器decoder1中,其每个decoder模块的输入为上一层的输出和特征增强模块的输出;在解码器decoder2中,其每个decoder模块的输入为边界引导注意力模块的输出和特征增强模块的输出。
可选地,边界引导注意力模块包括两个卷积层、通道注意力模块和空间注意力模块,输入边界引导注意力模块的特征依次经过两个卷积层、通道注意力模块和空间注意力模块后输出。
方案二、一种基于边界引导注意力的编解码器医学图像分割方法,根据上述系统对医学图像进行分割,该方法具体为:首先将医学图像输入编码器中提取出5个不同尺度的特征{Layeri,i=1,2,3,4,5},其中{Layeri,i=1,2}为低级特征,{Layeri,i=3,4,5}为高级特征;然后将低级特征拼接后输入特征增强模块,高级特征则分别输入特征增强模块,特征增强模块的输出分别进入两个解码器decoder1和decoder2中;在解码器decoder2中,加入边界引导注意力模块,其输入为上一层两个解码器decoder模块的输出,边界引导注意力模块的输出与特征增强模块的输出进行拼接后进入解码器decoder2的下一层decoder模块中;同时,引入深度监督对两个解码器的每个decoder模块进行监督;最终解码器decoder2的输出作为最终的医学图像分割图。
进一步地,在解码器decoder1中,每个decoder模块的输入为上一层decoder模块的输出与特征增强模块的输出的拼接。
进一步地,特征增强模块中,输入特征经过4个并行的残差分支{bi,i=1,2,3,4};每个分支bi采用以下处理过程:
1)使用1×1卷积降低通道数目;
2)再经过一个(2i-1)×(2i-1)卷积和一个扩张率为2i-1的3×3膨胀卷积;
3)最后再经过一个通道注意力模块;
将4个分支的特征在通道的维度进行拼接,通过1×1卷积将通道数降低32;然后将输出的特征和最原始并经过一个1×1卷积降低通道数的特征进行相加,并通过BN层和ReLU函数进行处理,处理后的特征再经过空间注意力模块以减少不相关区域的影响。
进一步的,边界引导注意力模块使用decoder2上一层解码器的输出特征di+1和decoder1上一层解码器的输出特征d′i+1作为输入;将两个特征进行拼接并通过两个卷积层后将通道数降为32,再将特征输入CBAM模块,然后输出得到边界引导注意力模块的输出。
进一步的,病灶分割损失函数为:
式中,sij和分别表示位置(i,j)的预测值和真实值,wij表示计算的权重,/>表示基于全局约束和局部像素级约束的加权IoU损失,/>表示二进制交叉熵BCE损失;
边界分布图预测损失函数为:
式中,bij表示生成的边界图位置(i,j)的像素点,表示预测的边界图位置(i,j)的像素点,λ表示计算损失时的阈值,/>时,/>时,
本发明的有益效果在于:本发明提出了双解码器结构,并且两个解码器分别输出图像边界和病灶区域,同时本发明采用边界引导注意力模块将一个解码器中包含边界特征的信息流融合到另一解码器流中,使最终图像分割结果更关注边界区域;此外本发明还采用自适应特征增强模块以增强编码器的语义特征,组合不同感受野的语义信息;本发明在泛化能力和鲁棒性上表现优秀,获得的医学图像分割结果边界清晰,小目标明显。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明系统架构图;
图2为特征增强模块结构示意图;
图3为边界引导注意力模块结构示意图;
图4为深度监督示意图;
图5为不同分割方法在息肉图像上的可视化对比;
图6为不同分割方法在皮肤图像上的可视化对比。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示为本发明的系统架构,本发明基于BGAUnet神经网络模型,BGAUnet由一个编码器和两个并行解码器组成,两个解码器共享一个编码器。
在BGAUnet中,编码器使用了Res2Net作为特征提取器,假设输入图片大小为H×W,那么经过编码器将提取出分辨率为(H/2k-1)×(W/2k-1)的5个不同尺度的特征{Layeri,i=1,2,3,4,5},{Layeri,i=1,2}为低级特征,{Layeri,i=3,4,5}为高级特征。五个尺度的特征都将作为两个解码器的输入,在进入解码器之前,{Layeri,i=1,2,3,4,5}先经过特征增强模块(Feature Enhance Module,FEM),其中,低级特征先拼接后再送入FEM中。
两个解码器decoder1和decoder2共享一个编码器,使得两者能共同学习和利用编码器提取的特征来生成预测输出。其中解码器decoder1用于预测边界,decoder2用于预测病灶区域。每一个解码器包含4个decoder模块,每个decoder的输入来自上一层的输出和跳跃连接(FEM的输出),具体地:decoder1中,每个decoder模块的输入为上一层的输出和特征增强模块的输出;decoder2中,每个decoder模块的输入为边界引导注意力(BoundaryGuide Attention Model,BGA)模块的输出和特征增强模块的输出。两个解码器之间并不是各自独立的,BGA模块是连接两个解码器之间的桥梁。解码器decoder2中设有三个BGA模块,BGA模块的输入来自上一层解码器decoder1和decoder2的输出。使用解码器decoder1产生的信息引导病灶区域分割解码器decoder2,用BGA模块产生的上下文信息来更好地进行图像分割,这样,两个解码器能够互相协作,共同完成更准确、更具鲁棒性的医学图像分割任务。
FEM是在RFB(Receptive Field Block,RFB)的基础之上进行改进得来的,FEM在每个尺度添加通道注意力(Channel Attention,CA)以进行额外的全局细化,并在聚合后的特征后添加空间注意力(Spatial Attention,SA)提升模型图象空间信息的关注程度,如图2所示。FEM包含四个并行的残差分支{bi,i=1,2,3,4}。每个分支bi首先使用1×1卷积降低通道数目,接着跟上两个卷积步骤,即一个(2i-1)×(2i-1)卷积和一个扩张率为2i-1的3×3膨胀卷积。每个分支最后添加CA模块,接着将四条分支的特征在通道的维度进行拼接,通过1×1卷积将通道数降低32。然后将输出的特征和最原始并经过一个1×1卷积降低通道数的特征进行相加,并通过BN(Batch Normalization)层和ReLU函数进行处理。处理后的特征再添加SA机制以减少不相关区域的影响。除此之外,Inception-V3提出:一个(2i-1)×(2i-1)的卷积可以被(2i-1)×1和1×(2i-1)两个卷积代替,不仅不会损失精度而且会加快推理速度,因此本发明中的(2i-1)×(2i-1)卷积被替换为了(2i-1)×1和1×(2i-1)两个卷积。
如图3所示为边界引导注意力模块结构示意图。边界分布图(BoundaryDistribution Map)表示特征图中当前像素属于边界的概率图。假设边界分布符合均值为0,标准差为σ的高斯分布,那么边界分布图可以表示为:
式中,ε(pij)表示像素点pij到边界的最短欧氏距离;σ表示标准差。BGAUnet在解码器decoder1中预测边界分布图,并使用边界分布图计算损失函数,decoder1的每一个分支均用于预测边界分布图。
在传统的注意力机制中,模型通常是基于像素级别的权重来计算注意力,这样容易出现注意力被分散到物体内部的区域,而忽略了物体边界的细节,而BGA则在注意力的计算过程前加入了边界信息,从而更好地关注边界区域。BGA模块模块使用decoder2上一层解码器的输出特征di+1和decoder1上一层解码器的输出特征d′i+1作为输入,将两个特征进行拼接之后通过两个卷积层(Conv3×3+BN+ReLu)后将通道数降为32;接下来将特征输入CBAM模块,然后输出得到BGA模块的输出。BGA模块可以将边界信息从decoder1引入到decoder2,同时CBAM中的空间和通道注意力模块可以有效地提高模型对于特定空间位置和重要通道的关注程度,这样既可以补充因为下采样损失的边界信息,又可以丰富语义特征,得到更好的分割结果。
本发明的病灶分割损失函数为:
式中,sij和分别表示位置(i,j)的预测值和真实值,wij表示计算的权重,/>表示基于全局约束和局部像素级约束的加权IoU损失,/>表示二进制交叉熵BCE损失。
边界分布图预测损失函数为:
式中,bij表示生成的边界图位置(i,j)的像素点,表示预测的边界图位置(i,j)的像素点。η[x]是特定的函数,当x为真,η[x]=1,当x为假,η[x]=0。λ表示计算损失时的阈值,当前像素点属于边界的概率小于λ时,表达式为假,对于损失值没有贡献,反之表达式为真,对损失值有贡献。因此上式中,/>时,/>时,
本发明的总损失函数如下式所示:
式中,是整体的损失函数;/>是边界分割解码器decoder1的总体损失;是病灶区域分割解码器decoder2的总体损失。在本发明中使用了深度监督,对于解码器decoder1的四个输出{Si,i=1,2,3,4},全部上采样到和病灶区域分割真实图G一样大小;对于解码器decoder2的四个输出{S′i,i=1,2,3,4},全部上采样到和边界真实图G′一样大小。
如图4所示为本发明采用的深度监督(Deep Supervision)的结构示意图,深度监督是一种深度学习模型训练技巧,旨在提高模型的学习效率和泛化性能。本发明在训练过程中,对两个解码器都分别使用了深度监督。其中,对于解码器decoder1,使用边界分布图在4个尺度上进行监督;对于解码器decoder2,使用真实分割标签在4个尺度上进行监督。
在本实施例中采用本发明对息肉医学图像践行分割,并与几个具有代表性的息肉分割方法进行对比,包括Unet、Unet++、SFA、Pranet、BDG-Net等。本实施例使用的是RTXA5000显卡,使用的Python代码框架是PyTorch 1.7。模型训练150个epoch,batchsize大小为16。在训练上,使用AdamW作为方法的优化器,动量为0.9,权值衰减为1e-4,学习率为1e-4。在输入网络前,所有图像都被调整为352×352的大小,测试阶段也是同样的大小。在数据增强上,使用了尺度为[0.75,1,1.25]的多尺度训练方法,并使用了随机裁剪、垂直翻转、水平旋转、高斯噪声、丢弃某位置某通道像素、对比度变换。在训练过程中,代码将在测试集上表现最好的网络参数保存下来。
本实施例采用了五个息肉分割相关的数据集,分别是Kvasir-SEG、ClinicDB、ColonDB、ETIS、Endoscene,五个数据集在近几年的分割任务中被广泛的用来评估网络模型的有效性。对于息肉分割训练集和测试集合的划分,采用Pranet的设置。同时使用了皮肤病变分割数据集ISIC2018,本实施例中将所有的ISIC2018数据集包含的2594张图片调整为192×256大小,并按照8:2的比例随机分配为训练集和测试集。分配过后的训练集包含2076张图片,测试集包含518张图片。上述数据集如表1所示:
表1数据集
对于息肉的分割,本实施例采用了2个广泛使用的评价指标:Dice和IoU。具体使用Dice和IoU的平均值mDice和mIoU来做为评价指标。为了公平对比,所有的评价指标代码使用的是MatLab代码,来自PraNet。对于皮肤分割,本实施例使用了五个皮肤分割的常见评价指标:Recall、Precision、Accurancy、Dice、IoU。息肉分割的方法包括Unet、Unet++、SFA、Pranet、BDG-Net,这些对比方法的结果直接从它们各自的文献中得到,前提是训练集和测试集是一样的,测试代码也一样。如果没有直接的结果则通过它们发布的代码计算。
对于皮肤病变分割,本实施例选择几个具有代表性的皮肤病变分割方法进行对比,包含Unet、Unet++、ResUnet、At-Unet、ResUnet++、CPFNet、CA-Net。由于不同方法的数据集的设置不同,为了公平比较,本实施例将采用对比方法的模型代码,在同样的训练设置下进行重新训练,并保存最好的实验结果的参数。这些对比方法如表2所示:
表2对比方法
对比结果:
在息肉分割上的对比结果如表3所示。在五个数据集中,本发明在三个数据集上都取得了最好的效果。在ClinicDB上,比第二的数据集高1.5%。在包含大量小目标的ETIS数据集上,本发明的精度大幅提升。mDice和mIoU分别比第二的数据集高出7.1%和8.5%。同时,在另外两个数据集上,本发明也达到了排名第二的效果。证明了本发明在整体分割上还有小目标上分割效果上表现较好。
表3不同分割模型在息肉数据集上的性能比较
在皮肤病变分割上的对比结果如表4所示。本发明在五个评价指标上比所有对比方法表现都要好。五个评价指标分别达到了0.913、0.922、0.961、0.904、0.887,比排名第二的方法分别高出0.3%、0.77%、0.1%、0.3%、0.2%。对比数据表明了本发明的有效性。
表4不同方法在皮肤数据集的性能比较
方法 | Recall | Precision | Accuracy | Dice | IoU |
Unet | 0.906 | 0.916 | 0.956 | 0.897 | 0.879 |
Unet++ | 0.913 | 0.906 | 0.951 | 0.895 | 0.778 |
ResUnet | 0.870 | 0.895 | 0.944 | 0.859 | 0.848 |
At-Unet | 0.909 | 0.910 | 0.956 | 0.896 | 0.877 |
ResUnet++ | 0.896 | 0.910 | 0.952 | 0.883 | 0.870 |
CPFNet | 0.913 | 0.915 | 0.960 | 0.901 | 0.885 |
CA-Net | 0.910 | 0.912 | 0.955 | 0.895 | 0.879 |
BGAUnet | 0.913 | 0.922 | 0.961 | 0.904 | 0.887 |
本实施例使用FLOPs和参数量来评估模型的计算复杂度,如表5所示。FLOPs是在352×352的输入分辨率下计算得出。从表中可以看出,本发明的计算时间复杂度在所有方法中排名第二,但参数量较高。
表5不同模型的平均推理速度,‘N/A’表示数据无法获取
方法 | Unet | Unet++ | ResUNet | AtUnet | ResUNet++ | CPFNet | CA-Net | BGAUnet |
FLOPs(G) | 123.88 | 262.16 | 153.11 | 125.98 | 134.22 | 15.26 | N/A | 26.64 |
Param(M) | 34.53 | 36.63 | 13.04 | 34.88 | 14.48 | 30.65 | N/A | 29.54 |
图5所示为不同分割方法在息肉图像上的可视化对比,图中GT代表真实的标签,Image代表输入的图片。图中可看出,对于第2、3、4行,相比于其他的方法,BGAUnet能够分割出清晰的小目标;对于第1、5行,BGAUnet能够得到清晰的边界,证明了BGAUnet的边界预测分支能够为病灶区域的分割提供边界信息,能够得到清晰的分割结果图。图6所示为BGAUnet在ISIC2018数据集上的分割结果,其中选取了Unet和Unet++作为对比,从图中可以看出,本发明的边界明显,前景和背景之间的区别较大大,没有模糊的边界。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种基于边界引导注意力的编解码器医学图像分割系统,其特征在于:该系统包括编码器、解码器、特征增强模块和边界引导注意力模块;所述编码器用于处理输入医学图像,得到不同尺度的特征,并输出至所述解码器;所述解码器根据所述特征完成医学图像分割;在编码器的不同尺度特征输出之后连接有所述特征增强模块,用于增强编码器的语义特征,组合不同感受野的语义信息,编码器的特征输出经过特征增强模块后再进入解码器;所述边界引导注意力模块设置在所述解码器中相邻的decoder模块之间,用于强化医学图像的边界信息。
2.根据权利要求1所述的医学图像分割系统,其特征在于:所述编码器采用Res2Net作为特征提取器,医学图像经编码器提取后得到5个不同尺度的特征{Layeri,i=1,2,3,4,5}。
3.根据权利要求1所述的医学图像分割系统,其特征在于:该系统包括两个解码器,共享一个编码器;两个解码器中,解码器decoder1用于预测边界,解码器decoder2用于预测病灶区域;其中,在解码器decoder2中,其相邻的decoder模块之间设有所述边界引导注意力模块,边界引导注意力模块的输入为上一层两个解码器的输出;
每个解码器均包括4个decoder模块;在解码器decoder1中,其每个decoder模块的输入为上一层的输出和特征增强模块的输出;在解码器decoder2中,其每个decoder模块的输入为边界引导注意力模块的输出和特征增强模块的输出。
4.根据权利要求1所述的医学图像分割系统,其特征在于:所述边界引导注意力模块包括两个卷积层、通道注意力模块和空间注意力模块,输入边界引导注意力模块的特征依次经过两个卷积层、通道注意力模块和空间注意力模块后输出。
5.用于权利要求1~4中任一项所述系统的基于边界引导注意力的编解码器医学图像分割方法,其特征在于:该方法具体为:首先将医学图像输入编码器中提取出5个不同尺度的特征{Layeri,i=1,2,3,4,5},其中{Layeri,i=1,2}为低级特征,{Layeri,i=3,4,5}为高级特征;然后将所述低级特征拼接后输入特征增强模块,高级特征则分别输入特征增强模块,特征增强模块的输出分别进入两个解码器decoder1和decoder2中;在解码器decoder2中,加入边界引导注意力模块,其输入为上一层两个解码器decoder模块的输出,边界引导注意力模块的输出与特征增强模块的输出进行拼接后进入解码器decoder2的下一层decoder模块中;同时,引入深度监督对两个解码器的每个decoder模块进行监督;最后解码器decoder2的输出作为最终的医学图像分割图。
6.根据权利要求5所述的医学图像分割方法,其特征在于:在解码器decoder1中,每个decoder模块的输入为上一层decoder模块的输出与特征增强模块的输出的拼接。
7.根据权利要求5所述的医学图像分割方法,其特征在于:所述特征增强模块中,输入特征经过4个并行的残差分支{bi,i=1,2,3,4};每个分支bi采用以下处理过程:
1)使用1×1卷积降低通道数目;
2)再经过一个(2i-1)×(2i-1)卷积和一个扩张率为2i-1的3×3膨胀卷积;
3)最后再经过一个通道注意力模块;
将4个分支的特征在通道的维度进行拼接,通过1×1卷积将通道数降低32;然后将输出的特征和最原始并经过一个1×1卷积降低通道数的特征进行相加,并通过BN层和ReLU函数进行处理,处理后的特征再经过空间注意力模块以减少不相关区域的影响。
8.根据权利要求5所述的医学图像分割方法,其特征在于:所述边界引导注意力模块使用decoder2上一层解码器的输出特征di+1和decoder1上一层解码器的输出特征di+1作为输入;将两个特征进行拼接并通过两个卷积层后将通道数降为32,再将特征输入CBAM模块,然后输出得到边界引导注意力模块的输出。
9.根据权利要求5所述的医学图像分割方法,其特征在于:病灶分割损失函数为:
式中,sij和分别表示位置(i,j)的预测值和真实值,wij表示计算的权重,/>表示基于全局约束和局部像素级约束的加权IoU损失,/>表示二进制交叉熵BCE损失;
边界分布图预测损失函数为:
式中,bij表示生成的边界图位置(i,j)的像素点,表示预测的边界图位置(i,j)的像素点,λ表示计算损失时的阈值,/>时,/>时,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501603.9A CN116503431A (zh) | 2023-05-06 | 2023-05-06 | 基于边界引导注意力的编解码器医学图像分割系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501603.9A CN116503431A (zh) | 2023-05-06 | 2023-05-06 | 基于边界引导注意力的编解码器医学图像分割系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503431A true CN116503431A (zh) | 2023-07-28 |
Family
ID=87322744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310501603.9A Pending CN116503431A (zh) | 2023-05-06 | 2023-05-06 | 基于边界引导注意力的编解码器医学图像分割系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503431A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721112A (zh) * | 2023-08-10 | 2023-09-08 | 南开大学 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
CN117830226A (zh) * | 2023-12-05 | 2024-04-05 | 广州恒沙云科技有限公司 | 一种基于边界约束的息肉分割方法及系统 |
-
2023
- 2023-05-06 CN CN202310501603.9A patent/CN116503431A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721112A (zh) * | 2023-08-10 | 2023-09-08 | 南开大学 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
CN116721112B (zh) * | 2023-08-10 | 2023-10-24 | 南开大学 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
CN117830226A (zh) * | 2023-12-05 | 2024-04-05 | 广州恒沙云科技有限公司 | 一种基于边界约束的息肉分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pacal et al. | A robust real-time deep learning based automatic polyp detection system | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
Zhang et al. | Modified U-Net for plant diseased leaf image segmentation | |
Wang et al. | Salient object detection based on multi-scale contrast | |
CN116503431A (zh) | 基于边界引导注意力的编解码器医学图像分割系统及方法 | |
CN113077471A (zh) | 一种基于u型网络的医学图像分割方法 | |
Kang et al. | ASF-YOLO: A novel YOLO model with attentional scale sequence fusion for cell instance segmentation | |
CN111325750B (zh) | 一种基于多尺度融合u型链神经网络的医学图像分割方法 | |
CN109784283A (zh) | 基于场景识别任务下的遥感图像目标提取方法 | |
CN111259906A (zh) | 含多级通道注意力的条件生成对抗遥感图像目标分割方法 | |
CN114266794B (zh) | 基于全卷积神经网络的病理切片图像癌症区域分割系统 | |
CN112001928A (zh) | 一种视网膜血管分割方法及系统 | |
CN112489073B (zh) | 基于帧间高级特征差分的零样本视频前景分割方法 | |
Xu et al. | Boundary guidance network for camouflage object detection | |
Tomar et al. | Dilatedsegnet: A deep dilated segmentation network for polyp segmentation | |
CN111179272B (zh) | 一种面向道路场景的快速语义分割方法 | |
Li et al. | ROBYOL: Random-occlusion-based BYOL for hyperspectral image classification | |
CN117351487A (zh) | 一种邻近区域与边缘信息融合的医学图像分割方法、系统 | |
CN116580202A (zh) | 一种基于改进U-net网络的乳腺医学图像分割方法 | |
Feng et al. | ConvWin-UNet: UNet-like hierarchical vision Transformer combined with convolution for medical image segmentation | |
Lin et al. | CSwinDoubleU-Net: A double U-shaped network combined with convolution and Swin Transformer for colorectal polyp segmentation | |
Zhang et al. | Global guidance-based integration network for salient object detection in low-light images | |
Chacon-Murguia et al. | Moving object detection in video sequences based on a two-frame temporal information CNN | |
CN116452812A (zh) | 一种伪装物体识别及语义分割方法 | |
CN114842029B (zh) | 一种融合通道和空间注意力的卷积神经网络息肉分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |