CN116503428A - 基于精细化全局注意力机制图像特征提取方法和分割方法 - Google Patents
基于精细化全局注意力机制图像特征提取方法和分割方法 Download PDFInfo
- Publication number
- CN116503428A CN116503428A CN202310759859.XA CN202310759859A CN116503428A CN 116503428 A CN116503428 A CN 116503428A CN 202310759859 A CN202310759859 A CN 202310759859A CN 116503428 A CN116503428 A CN 116503428A
- Authority
- CN
- China
- Prior art keywords
- channel
- attention
- convolution
- refined
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 title abstract description 10
- 238000003709 image segmentation Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 26
- 238000002474 experimental method Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 8
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 206010018985 Haemorrhage intracranial Diseases 0.000 description 5
- 208000008574 Intracranial Hemorrhages Diseases 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012733 comparative method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000032843 Hemorrhage Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30016—Brain
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Databases & Information Systems (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Image Processing (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Image Analysis (AREA)
Abstract
基于精细化全局注意力机制图像特征提取方法和分割方法,属于图像分割技术领域,解决图像分割的神经网络中注意力机制对于特征的提取不充分以及参数量过多问题。本发明的方法包括:在计算精细化通道注意力时,在进行特征浓缩时引入了具有不同空洞大小的空洞卷积;将不同空洞大小的空洞卷积共享权重;将深度可分离卷积中的逐通道卷积与空洞卷积结合,使得每一次卷积操作只需要在一个通道上进行计算;在计算精细化空间注意力时,将特征图进行了分组,每一组分别计算注意力权重,最后每一组都能得到一个注意力图。每一组生成的注意力图只对各自组进行权重赋予。本发明适用于医学图像的特征提取和分割。
Description
技术领域
本申请涉及图像分割技术领域,尤其涉及医学图像分割。
背景技术
自2015年引入用于医学图像分割的U-Net以来,已经提出了许多基于编码器-解码器架构的变体模型。研究者们通过重新设计跳跃连接,合并残差/密集卷积块,注意力机制等来改进它。
为了更加充分的利用医学图像中提供的信息,提高医学图像分割的准确率,并且不明显增加参数量,科研人员想到了在神经网络中引入当下备受关注的注意力机制。注意力机制简单来讲,就是模仿人类视觉系统这一性质,告诉神经网络要重点注意什么和重点注意图片的哪里。这样可以更好的利用图片中包含的语义信息,是一种比较新颖,对网络的性能有相当提升作用的方法。因此,在用于医学图像分割的基础网络模型中引入注意力机制获得了与医学图像处理有关的计算机视觉领域越来越多科研学者的关注。
注意力机制一般可以分为两大类:(1)通道注意力机制;(2)空间注意力机制。通道注意力机制可以看作一种通道区域的自适应校准机制,它告诉网络要注意什么。空间注意力机制可以看作一种空间区域选择机制,它告诉网络要注意哪里。注意力机制在医学图像分割领域的有效性已经被证实。虽然目前很多的医学图像分割方法都使用到了注意力机制,但目前即插即用的注意力机制对于通道注意力和空间注意力的提取还存在对于特征的提取不充分,参数量过多等问题。
发明内容
本发明目的是为了解决现有图像分割的神经网络中注意力机制对于特征的提取不充分以及参数量过多的问题,提供了基于精细化全局注意力机制的图像特征提取方法、分割方法、设备、存储介质和产品。
本发明是通过以下技术方案实现的,本发明一方面,提供一种基于精细化全局注意力机制的图像特征提取方法,所述方法包括:
获取卷积神经网络生成的特征图;
利用精细化全局注意力机制对所述特征图进行特征提取,所述精细化全局注意力机制,具体包括:
精细化通道注意力机制,对特征图进行具有不同空洞大小的空洞卷积,所述不同空洞大小的空洞卷积共享权重;
将深度可分离卷积中的逐通道卷积与空洞卷积结合,每一个空洞卷积核只对一个通道的特征进行计算,获取图像特征,再根据所述图像特征,获取精细化通道注意力;
精细化空间注意力机制,将特征图切分成若干组,每组分别计算注意力权重,获取精细化空间注意力;
将所述精细化通道注意力与所述精细化空间注意力进行点乘,得到精细化全局注意力。
进一步地,所述对特征图进行具有不同空洞大小的空洞卷积,所述不同空洞大小的空洞卷积共享权重,具体包括:
对特征图进行空洞大小为1,2,4的逐通道空洞卷积,卷积核大小均为,步长为1,并且三个逐通道空洞卷积共享权重。
进一步地,所述将深度可分离卷积中的逐通道卷积与空洞卷积结合,每一个空洞卷积核只对一个通道的特征进行计算,获取图像特征,再根据所述图像特征,获取精细化通道注意力,具体包括:
将使用不同空洞大小的空洞卷积操作后输出的若干个特征图逐元素加和,对所述加和结果再进行一次逐通道卷积融合不同尺度的特征,再经过全局平均池化、全连接层压缩特征通道数量、全连接层还原通道数量和Sigmoid函数非线性激活,获取精细化通道注意力。
进一步地,所述精细化通道注意力的计算公式为:
其中,设一个特征图为,其中W表示宽度,H表示高度,C表示通道维度;表示Sigmoid函数;/>和/>分别表示两个全连接层,前者用来压缩特征通道数量,后者用来还原通道数量;
表示对每一个通道做全局平均池化;
表示对X进行特征浓缩操作,其公式为:
其中,表示步长为1,卷积核大小为/>的逐通道空洞卷积,空洞大小为/>表示步长为2,卷积核大小为/>的逐通道卷积。
进一步地,所述将特征图切分成若干组,具体包括:
将特征图平均切分成若干通道数量相同的组。
进一步地,所述每组分别计算注意力权重,具体包括:
对每一组特征图采取沿通道平均池化,将每一组池化后得到的特征图都沿高度H和宽度W方向分别计算一维注意力,再将计算得到的注意力权重进行点乘,得到的二维空间注意力。
第二方面,本发明提供一种基于精细化全局注意力机制的图像分割方法,所述方法包括:
获取目标图像;
利用基于精细化全局注意力机制的神经网络,对所述目标图像进行分割,其中,所述基于精细化全局注意力机制的神经网络具体包括:
以U-Net网络作为骨干网络,并将如上文所述的一种基于精细化全局注意力机制的图像特征提取方法中的精细化全局注意力机制添加在所述U-Net网络的跳跃连接处。
第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于精细化全局注意力机制的图像特征提取方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行如上文所述的一种基于精细化全局注意力机制的图像特征提取方法。
第五方面,本发明提供一种计算机程序产品,所述计算机程序被处理器执行时实现如上文所述的一种基于精细化全局注意力机制的图像特征提取方法。
本发明的有益效果:
综上,本发明针对现有技术中存在的问题进行了优化改进,提出了一种用于医学图像分割的精细化全局注意力机制。
首先,在通道注意力中引入空洞卷积以充分提取利用图像的特征信息,引入深度可分离卷积和空洞卷积核的共享权重以减少参数量。由于只需要浓缩每一层通道的特征,因此将深度可分离卷积中的逐通道卷积与空洞卷积结合,使得每一次卷积操作只需要在一个通道上进行计算,而无需作用于整个特征图,这样大大减少了参数量。在进行特征浓缩时引入了具有不同空洞大小的空洞卷积,以增大感受野,对每一个通道的特征进行更充分的提取。
其次,在空间注意力中对原先单纯使用卷积计算的特征图进行分组计算,并在最后计算注意力权重时采用SENet的处理方法,以得到更精细化注意力权重。每一组生成的注意力图只对各自组进行权重赋予,从而缓解了不同通道同一位置权重需求不同的问题。
最后将精细化通道注意力与精细化空间注意力进行点乘,得到精细化全局注意力模块。
本发明适用于医学图像的特征提取,提取的特征用于医学图像分割,提高医学图像分割的准确率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用于医学图像分割的精细化全局注意力机制模块;
图2为本发明的计算精细化全局注意力流程图;
图3为本发明的精细化通道注意力机制流程图;
图4为本发明的精细化空间注意力分组示意图;
图5为本发明的分组计算空间注意力特征示意图;
图6为模型参数量与计算量的对比;
图7为模型分割效果可视化;
图8为参数g对性能的影响;
图9为参数Rc对性能的影响;
图10为 参数Rs对性能的影响。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
具体实施方式一、一种基于精细化全局注意力机制的图像特征提取方法,所述方法包括:
获取卷积神经网络生成的特征图;
利用精细化全局注意力机制对所述特征图进行特征提取,所述精细化全局注意力机制,具体包括:
精细化通道注意力机制,对特征图进行具有不同空洞大小的空洞卷积,所述不同空洞大小的空洞卷积共享权重;
所述将深度可分离卷积中的逐通道卷积与空洞卷积结合,每一个空洞卷积核只对一个通道的特征进行计算,获取图像特征,再根据所述图像特征,获取精细化通道注意力;
精细化空间注意力机制,将特征图切分成若干组,每组分别计算注意力权重,获取精细化空间注意力;
将所述精细化通道注意力与所述精细化空间注意力进行点乘,得到精细化全局注意力。
本实施方式中,在计算精细化通道注意力时,以往传统的计算方式直接通过池化操作来进行特征的浓缩,这太过于简单粗暴,容易忽略通道中的重要信息从而影响最终注意力权重的计算。因此,本实施方式在进行特征浓缩时引入了具有不同空洞大小的空洞卷积,以增大感受野,对每一个通道的特征进行更充分的提取。同时,为了避免引入过多额外的参数量,本实施方式还进行了多处优化。
首先,将不同空洞大小的空洞卷积共享权重;
其次,由于只需要浓缩每一层通道的特征,因此将深度可分离卷积中的逐通道卷积与空洞卷积结合,使得每一次卷积操作只需要在一个通道上进行计算,而无需作用于整个特征图,这样大大减少了参数量。通过增大感受野并融合不同感受野提取到的特征,本实施方式的精细化通道注意力可以提取到比以往方法更精细的特征,从而更准确地对不同的通道赋予权重。
传统的空间注意力只能对不同通道的同一位置赋予相同的权重。为了解决这个问题,本实施方式设计的精细化空间注意力模块,将特征图进行了分组,每一组分别计算注意力权重,最后每一组都能得到一个注意力图。每一组生成的注意力图只对各自组进行权重赋予,从而缓解了不同通道同一位置权重需求不同的问题。
具体实施方式二,本实施方式是对实施方式一所述的一种基于精细化全局注意力机制的图像特征提取方法的进一步限定,本实施方式中,对所述对特征图进行具有不同空洞大小的空洞卷积,所述不同空洞大小的空洞卷积共享权重,做了进一步限定,具体包括:
对特征图进行空洞大小为1,2,4的逐通道空洞卷积,卷积核大小均为,步长为1,并且三个逐通道空洞卷积共享权重。
本实施方式中,引入了空洞卷积以增大感受野,从而获得图像的更多信息。使空洞卷积核共享权重,这样可以使得模型仅使用少量卷积核即可获得广阔的感受野,又减少了参数量,做到了模型的轻量化,使模型具有即插即用的特性。
具体实施方式三,本实施方式是对实施方式二所述的一种基于精细化全局注意力机制的图像特征提取方法的进一步限定,本实施方式中,对所述将深度可分离卷积中的逐通道卷积与空洞卷积结合,每一个空洞卷积核只对一个通道的特征进行计算,获取图像特征,再根据所述图像特征,获取精细化通道注意力,做了进一步限定,具体包括:
将使用不同空洞大小的空洞卷积操作后输出的若干个特征图逐元素加和,对所述加和结果再进行一次逐通道卷积融合不同尺度的特征,再经过全局平均池化、全连接层压缩特征通道数量、全连接层还原通道数量和Sigmoid函数非线性激活,获取精细化通道注意力,以获取更精细化的特征。
本实施方式中,将深度可分离卷积中的逐通道卷积与空洞卷积相结合,使得每一次卷积操作只需要在一个通道上进行计算,这样也是为了减少模型参数量。
具体实施方式四,本实施方式是对实施方式三所述的一种基于精细化全局注意力机制的图像特征提取方法的进一步限定,本实施方式中,对所述精细化通道注意力的计算公式,做了进一步限定,具体包括:
所述精细化通道注意力的计算公式为:
其中,设一个特征图为,其中W表示宽度,H表示高度,C表示通道维度;表示Sigmoid函数;/>和/>分别表示两个全连接层,前者用来压缩特征通道数量,后者用来还原通道数量;
表示对每一个通道做全局平均池化;
表示对X进行特征浓缩操作,其公式为:
其中,表示步长为1,卷积核大小为/>的逐通道空洞卷积,空洞大小为/>表示步长为2,卷积核大小为/>的逐通道卷积。
本实施方式中,本实施方式给出了精细化通道注意力的具体计算公式,该计算方法可以有效获得广阔的感受野,又减少了参数量,做到了模型的轻量化,使模型具有即插即用的特性。
具体实施方式五,本实施方式是对实施方式一所述的一种基于精细化全局注意力机制的图像特征提取方法的进一步限定,本实施方式中,对所述将特征图切分成若干组,做了进一步限定,具体包括:
所述将特征图切分成若干组,具体包括:
将特征图平均切分成若干通道数量相同的组。
具体实施方式六,本实施方式是对实施方式一所述的一种基于精细化全局注意力机制的图像特征提取方法的进一步限定,本实施方式中,对所述每组分别计算注意力权重,做了进一步限定,具体包括:
所述每组分别计算注意力权重,具体包括:
对每一组特征图采取沿通道平均池化,将每一组池化后得到的特征图都沿高度H和宽度W方向分别计算一维注意力,再将计算得到的注意力权重进行点乘,得到的二维空间注意力。
本实施方式中,本实施方式的精细化空间注意力机制中,为了克服传统注意力机制中对所有特征图直接计算得到一个注意力权重图,从而无法避免某两个特征图在同一空间位置需要给予的特征权重相差极大,却又无法解决的问题。在本实施方式的精细化空间注意力机制中,对特征图进行分组计算注意力图,并在最后计算注意力数值时,仿照通道注意力机制SENet对W和H方向分别进行权重计算,从而得到更精细的注意力权重。
具体实施方式七,本实施方式是基于如上文所述的一种基于精细化全局注意力机制的图像特征提取方法的第一个实施例,具体包括:
本实施例提出的用于医学图像分割的精细化全局注意力机制,其总体结构如图1所示。我们的精细化全局注意力机制模块由精细化通道注意力和精细化空间注意力组成。
1.先分别计算精细化通道注意力机制和精细化空间注意力机制,
2.最后,本实施例将计算得到的精细化通道注意力与精细化空间注意力进行点乘,得到精细化全局注意力模块。本实施例的方法实际上是一个插件,将该插件嵌入现有的网络之后可以提升网络的性能。
本实施例计算精细化全局注意力的流程如图2所示。
4.1.1精细化通道注意力机制
精细化通道注意力机制克服原先注意力机制中简单粗暴的直接通过一个池化操作浓缩特征,从而导致图像中重要信息被忽略的缺点,引入了空洞卷积以增大感受野,从而获得图像的更多信息。本实施例使空洞卷积核共享权重,这样可以使得模型仅使用少量卷积核即可获得广阔的感受野,又减少了参数量,做到了模型的轻量化,使模型具有即插即用的特性。此外,本实施例将深度可分离卷积中的逐通道卷积与空洞卷积相结合,使得每一次卷积操作只需要在一个通道上进行计算,这样也是为了减少模型参数量。
本实施例精细化通道注意力机制的如图3所示,具体流程如下:
对现有的UNet网络生成的特征图进行空洞大小为1,2,4的逐通道空洞卷积,卷积核大小均为,步长为1,并且三个逐通道空洞卷积共享权重。然后将卷积后输出的三个特征图逐元素加和,对加和结果依次进行通道卷积,全局平均池化,全连接层压缩特征通道数量,全连接层还原通道数量和Sigmoid函数非线性激活。最终得到精细化通道注意力权重结果。
设一个特征图为,其中W表示宽度,H表示高度,C表示通道维度。通道注意力CA可以表示为公式4.1:
其中表示Sigmoid函数;/>和/>分别表示两个全连接层,前者用来压缩特征通道数量,后者用来还原通道数量。这与SENet中的“激活”操作是一样的,目的在于通过“瓶颈”操作来提取注意力权重。
表示对每一个通道做全局平均池化。
表示对X进行特征浓缩操作,其具体步骤如公式 4.2 所示:
其中表示步长为1,卷积核大小为/>的逐通道空洞卷积,空洞大小为/>。目的是为了减少参数量,三种不同空洞大小的逐通道空洞卷积共享权重;/>表示步长为2,卷积核大小为/>的逐通道卷积。
4.1.2精细化空间注意力机制
本实施例的精细化空间注意力机制中,为了克服传统注意力机制中对所有特征图直接计算得到一个注意力权重图,从而无法避免某两个特征图在同一空间位置需要给予的特征权重相差极大,却又无法解决的问题。在本实施例的精细化空间注意力机制中,本实施例对特征图进行分组计算注意力图,并在最后计算注意力数值时,仿照通道注意力机制SENet对W和H方向分别进行权重计算,得到更精细的注意力权重。
精细化空间注意力机制的分组示意图如图4所示。将输入的全部特征图进行切分,每组的数量相同,分别计算注意力权重,最后每一组得到一个注意力图(每一组的注意力图都是单独计算的)。每一组生成的注意力图只对各自组进行权重赋予,从而缓解了不同通道同一位置权重需求不同的问题。
在计算空间注意力的时候,以往的方法都是使用卷积最后计算得到注意力权重。而卷积操作只能考虑局部信息,因此在最后计算得到权重时无法考虑全局的信息。
在本实施例计算精细化空间注意力时,使用上述全部特征图进行分组后,对每一组特征图采取沿通道平均池化,将每一组池化后得到的特征图都沿特征图的高度H和宽度W方向分别计算一维注意力,然后再将计算得到的注意力权重进行点乘,得到的二维空间注意力。需要说明的是,特征图具有三个维度,通道C,高度H,宽度W。这个过程如图5所示。
设一个特征图为,其中W表示宽度,H表示高度,C表示通道维度。我们先将特征图进行分组,然后对每一个分组沿通道计算平均值,最后再对每一个分组分别计算空间注意力权重。其中,第i组的空间注意力/>的计算过程如公式 4.3 至公式 4.5所示:
(4.3)
(4.4)
(4.5)
其中,表示沿H方向的注意力权重,/>表示沿W方向的注意力权重;/>和分别表示两个全连接层,前者用来压缩特征通道数量,后者用来还原通道数量;表示沿k方向计算平均值,在这里k为H或W。
下面给出的效果:
为了验证本实施例方法的有效性,将本实施例提出的方法一步一步地进行消融实验。采用U-Net作为的骨干网络,在U-Net网络的跳跃连接处加入经过的精细化注意力机制模块。在实验过程中,严格控制单一变量。表5.1展示了实验结果。
表5.1消融实验结果
从表5.1可以看出,在分别加入了RCAM和RSAM之后,对比于基线方法,性能都有了一定程度的提升。相较于原始的U-Net,加入RCAM之后,DSC提升了0.84%,同时HD95下降了1.353;加入RSAM之后,DSC提升了0.41%,HD95下降0.655。值得注意的是,当在U-Net中同时加入RCAM和RSAM后,性能有了显著的提升,相较于原始的U-Net,DSC提升了2.34%,HD95下降了1.958。这表明将通道注意力模块与空间注意力模块结合得到的RGAM能有效地为特征图分配权重。这也证明了设计的RCAM模块与RSAM模块能让网络最终学习到需要注意的“通道”和需要注意的“位置”。实验结果表明,本实施例提出的各种方法均能够显著提高模型的性能,验证了这些方法的有效性。
为了证明本实施例提出的精细化全局注意力机制的有效性,使用了其他注意力机制的算法进行对比,用于对比的算法代码均来自于开源代码库。为了公平比较,本章在当前的实验环境下复现了这些方法,所有的注意力模块都加在U-Net的跳跃连接部分,并保证其他实验条件一致。首先对所有进行实验的方法都计算了其参数量与运算量,如图6所示;然后,分别在4个数据集上进行训练并对结果按评价指标进行量化,实验结果如表5.2所示,本实施例提出的方法除了在BUSI上的HD95指标之外,全部达到了最优的性能。
从图6和表5.2可以看出,本实施例的方法在参数量与计算量上相较于对比的方法并无明显增加。在此前提之下,本实施例的方法在4个数据集上的图像分割性能都存在优势。在PCX和ISIC2018这两个数据集上,由于原始的U-Net已经能达到十分精准的分割效果。因此,在加入注意力模块之后,性能虽然有所提升,但相较于不添加任何注意力模块的基准方法并不显著。尽管如此,本实施例的方法相较于其他方法仍然能进一步提高性能。与之相对的,在BUSI和ICH-CT这两个数据集上,基准方法在DSC这一项指标上还不到80%。加入注意力模块之后,性能都有较为显著的提升。在BUSI数据集上,本实施例的方法在DSC这一指标上仍然具有最好的性能,但在HD95这一指标上不那么令人满意,这说明本实施例的方法对于超声图像分割边缘的处理表现不佳。与之相对的,SE模块、CBAM模块和ECA模块在这一环节表现较好。其中,SE模块和ECA模块都是单一的通道注意力机制,没有计算空间注意力;而CBAM在计算空间注意力时也仅仅只是使用了沿通道方向的池化和一次卷积操作。因此,推测可能是由于超声图像相较于其他医学图像存在更多无关的噪点,本实施例的方法在计算空间注意力时增大了感受野的范围,也因此在提取的空间特征中引入了过多的噪音,导致了对于边缘部分的分割能力下降,这是将来研究需要解决的问题之一。值得注意的是,在ICH-CT数据集上,本实施例的方法性能优势最为显著,与基准方法的DSC相比有2.34%的提升,对比表现最好的CoordAtt也有0.91%的提升。除此之外,在HD95上相较于其他方法也有显著提升。综上,本实施例的方法在4个数据集上的综合表现优于所有对比的方法,这证明了提出方法的泛用性与优越性。
表5.2与其他方法对比的实验结果。
为了更直观地体现本实施例的方法的优越性,在ICH-CT数据集中挑选了一些模型生成的可视化结果进行比较,如图7所示。图片最左边的一列为原始图像,右边的两排为对应的标签和文章中用以比较的各种方法。从可视化结果可以看出,颅内出血CT的病灶往往比较细微,以往的注意力模块容易忽视一些细微但重要的区域,而本实施例提出的RCMA模块能够有效克服这一缺陷,分割出其他注意力模块忽视的细微病灶。除此之外,在一些难以识别的病灶区域,本实施例的方法也能生成最接近标签的分割结果。
具体实施方式八,本实施方式是基于如上文所述的一种基于精细化全局注意力机制的图像特征提取方法的第二个实施例,具体包括:
本实施例使用的数据集是颅内出血CT数据集(ICH-CT)。该数据集包含82次CT扫描,其中36位患者被诊断为颅内出血,每位患者有30张CT切片,数据集共包含318张CT切片。患者的平均年龄为27.8岁,标准差为19.5岁。两名专业放射科医师对每一层CT切片的出血情况区域进行了标注。本文从数据集中筛选出存在颅内出血的样本,并将数据按7:3的比例随机切分为训练集和测试集,其中训练样本包含223张,测试样本包含95张。在训练集中,选取10%作为已标注的数据,其余90%作为未标注的数据,即已标注的训练样本包含22张,未标记的训练样本包含201张。
本实施例所提出的方法都是使用了PyTorch框架进行实现的。使用了NVIDIA RTX2080TI作为加速训练的GPU,使用Adam作为训练优化器,权重衰减设置为0.0001,学习率初始化为0.01,学习率在训练过程中根据训练epoch进行调节,设置每10个epoch学习率就降低为0.75倍,每个批次的批大小固定为16,总共训练500个epoch。图像的大小固定为。对于训练集,将带标注的图像进行了弱增强以起到扩充数据集的作用,即训练期间对训练集进行随机翻转与旋转,随机概率为50%,旋转角度为/>。为了加快训练速度并提高效率,在实验中使用了apex进行混合精度训练,并将opt_level设置为O1。
损失函数使用医学图像分割领域常用的损失函数:二值交叉熵损失函数(BCE),其计算过程入公式7.1所示:
(7.1)
其中代表真实标签对每一个像素是否为c类的预测。/>代表的是Sigmoid函数。xc代表的是网络最后针对c类的输出。K代表的是类别的数量。
7.1参数分析
本实施例提出的算法中有3个可调参数。一个是对空间注意力进行计算前的分组数量g,这个参数会影响空间注意力的计算精细度与计算量。另外两个是RCAM(精细化通道注意力机制)和RSAM(精细化空间注意力机制)计算时全连接层的压缩比例Rc和Rs,这两个参数会对最终计算注意力权重的准确度和计算量产生影响。接下来将通过实验来讨论上述参数不同的取值对性能的影响, 并选取最优的参数值。因为实验目的只是找到最佳的参数,为了减少实验耗时,本小节所有的实验将使用颅内出血CT数据集(ICH-CT)进行评估,并且对超参数进行调整时严格遵循控制变量法。
对g选取了1,2,4,8,16一共五个值来进行一系列对比实验,讨论了的不同的g值对性能的影响,最后选取最优的参数值。参数g对性能的影响如图8所示。从中可以看出,g=4是最优的权重系数,当g=4 时,DSC 指标最大,同时 HD95 最小,性能最好。实验证明g的值越大,并不一定会有更好的实验结果。本实施例推测其原因是因为增加分组数量虽然可以减少同一位置不同通道的权重冲突,但也有可能使得每个分组通道数量过少,在计算注意力权重时由于缺少其他通道的信息而不准确,从而使得实验结果变差。在其他实验中,选择g=4 作为空间注意力计算的分组数量。
Rc的作用是控制提取通道注意力的压缩比例。参数Rc的值越大,计算通道注意力时的压缩比例就越大,注意力模块的参数量就越小,计算开销也就越小。本实施例选取了4,8,16,32作为备选参数,实验结果如图9所示。从图中可以看出,尽管Rc取4或8的时候注意力模块具有更多的参数量,但Rc=16时的性能最优。本实施例推测是因为Rc取4或8的时候注意力模块参数过多,随着训练推进模型产生了过拟合,从而导致性能反而不如Rc=16。在接下来的实验中,本实施例选择Rc=16作为通道注意力的压缩比例。
与参数Rc类似的是,参数Rs是控制提取空间注意力的压缩比例。本实施例使用和上文相同的实验方式,由于本实施例采用的图像大小为,生成的最小特征图大小为28×28,因此本实施例选取了2,4,8,16作为备选参数。实验结果如图10所示。从图中可以看出,Rs=4是最优的权重系数。当Rs=4时,DSC最大,HD95最小。因此,在接下来的实验中,本实施例选择Rs=4作为空间注意力模块的压缩比例。
7.2训练过程
参数选择完成后,下面将本实施例的全局注意力机制模块作用于U-Net网络的跳跃连接处以训练模型,展示本实施例的全局注意力机制模块的有效性。图1为整体模型。
本实施例将训练集送入一个以U-Net作为骨干网络,将本实施例的精细化全局注意力机制添加在跳跃连接处。在训练过程中,本实施例采用五折交叉验证,将数据集平均分成五份,每一次训练轮流取其中一份作为测试集,其他四份作为训练集,重复训练五次,取实验的平均值作为最终结果。网络使用的损失函数是医学图像分割领域中常用的二值交叉熵(BCE)损失函数。
训练过程结束后,仅使用训练好的U-Net+精细化全局注意力机制模型进行测试。将测试集输入训练好的网络提取特征,得到分割结果。
Claims (10)
1.一种基于精细化全局注意力机制的图像特征提取方法,其特征在于,所述方法包括:
获取卷积神经网络生成的特征图;
利用精细化全局注意力机制对所述特征图进行特征提取,所述精细化全局注意力机制,具体包括:
精细化通道注意力机制,对特征图进行具有不同空洞大小的空洞卷积,所述不同空洞大小的空洞卷积共享权重;
将深度可分离卷积中的逐通道卷积与空洞卷积结合,每一个空洞卷积核只对一个通道的特征进行计算,获取图像特征,再根据所述图像特征,获取精细化通道注意力;
精细化空间注意力机制,将特征图切分成若干组,每组分别计算注意力权重,获取精细化空间注意力;
将所述精细化通道注意力与所述精细化空间注意力进行点乘,得到精细化全局注意力。
2.根据权利要求1所述的一种基于精细化全局注意力机制的图像特征提取方法,其特征在于,所述对特征图进行具有不同空洞大小的空洞卷积,所述不同空洞大小的空洞卷积共享权重,具体包括:
对特征图进行空洞大小为1,2,4的逐通道空洞卷积,卷积核大小均为,步长为1,并且三个逐通道空洞卷积共享权重。
3.根据权利要求2所述的一种基于精细化全局注意力机制的图像特征提取方法,其特征在于,所述将深度可分离卷积中的逐通道卷积与空洞卷积结合,每一个空洞卷积核只对一个通道的特征进行计算,获取图像特征,再根据所述图像特征,获取精细化通道注意力,具体包括:
将使用不同空洞大小的空洞卷积操作后输出的若干个特征图逐元素加和,对所述加和结果再进行一次逐通道卷积融合不同尺度的特征,再经过全局平均池化、全连接层压缩特征通道数量、全连接层还原通道数量和Sigmoid函数非线性激活,获取精细化通道注意力。
4.根据权利要求3所述的一种基于精细化全局注意力机制的图像特征提取方法,其特征在于,所述精细化通道注意力的计算公式为:
其中,设一个特征图为,其中W表示宽度,H表示高度,C表示通道维度;/>表示Sigmoid函数;/>和/>分别表示两个全连接层,前者用来压缩特征通道数量,后者用来还原通道数量;
表示对每一个通道做全局平均池化;
表示对X进行特征浓缩操作,其公式为:
其中,表示步长为1,卷积核大小为/>的逐通道空洞卷积,空洞大小为/>;/>表示步长为2,卷积核大小为/>的逐通道卷积。
5.根据权利要求1所述的一种基于精细化全局注意力机制的图像特征提取方法,其特征在于,所述将特征图切分成若干组,具体包括:
将特征图平均切分成若干通道数量相同的组。
6.根据权利要求1所述的一种基于精细化全局注意力机制的图像特征提取方法,其特征在于,所述每组分别计算注意力权重,具体包括:
对每一组特征图采取沿通道平均池化,将每一组池化后得到的特征图都沿高度H和宽度W方向分别计算一维注意力,再将计算得到的注意力权重进行点乘,得到H×W的二维空间注意力。
7.一种基于精细化全局注意力机制的图像分割方法,其特征在于,所述方法包括:
获取目标图像;
利用基于精细化全局注意力机制的神经网络,对所述目标图像进行分割,其中,所述基于精细化全局注意力机制的神经网络具体包括:
以U-Net网络作为骨干网络,并将权利要求1-6任一项所述的一种基于精细化全局注意力机制的图像特征提取方法中的精细化全局注意力机制添加在所述U-Net网络的跳跃连接处。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,当所述处理器运行所述存储器存储的计算机程序时执行权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310759859.XA CN116503428B (zh) | 2023-06-27 | 2023-06-27 | 基于精细化全局注意力机制图像特征提取方法和分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310759859.XA CN116503428B (zh) | 2023-06-27 | 2023-06-27 | 基于精细化全局注意力机制图像特征提取方法和分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503428A true CN116503428A (zh) | 2023-07-28 |
CN116503428B CN116503428B (zh) | 2023-09-08 |
Family
ID=87320548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310759859.XA Active CN116503428B (zh) | 2023-06-27 | 2023-06-27 | 基于精细化全局注意力机制图像特征提取方法和分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503428B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329778A (zh) * | 2020-10-23 | 2021-02-05 | 湘潭大学 | 一种引进特征交叉注意力机制的语义分割方法 |
CN114359297A (zh) * | 2022-01-04 | 2022-04-15 | 浙江大学 | 基于注意力金字塔的多分辨率语义分割方法及装置 |
CN114492631A (zh) * | 2022-01-25 | 2022-05-13 | 燕山大学 | 一种基于通道注意力的空间注意力计算方法 |
CN114897094A (zh) * | 2022-06-01 | 2022-08-12 | 西南科技大学 | 一种基于注意力双支路特征融合的食管早癌病灶分割方法 |
CN115457021A (zh) * | 2022-09-30 | 2022-12-09 | 云南大学 | 基于联合注意卷积神经网络的皮肤病图像分割方法及系统 |
CN116052016A (zh) * | 2023-01-14 | 2023-05-02 | 南京信息工程大学 | 基于深度学习的遥感图像云和云影的精细分割检测方法 |
CN116229283A (zh) * | 2023-03-10 | 2023-06-06 | 江西师范大学 | 基于深度可分离卷积模块的遥感图像变化检测系统及方法 |
CN116310273A (zh) * | 2023-01-10 | 2023-06-23 | 河南工业大学 | 一种基于多空洞卷积和se注意力残差的无人机检测方法 |
-
2023
- 2023-06-27 CN CN202310759859.XA patent/CN116503428B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329778A (zh) * | 2020-10-23 | 2021-02-05 | 湘潭大学 | 一种引进特征交叉注意力机制的语义分割方法 |
CN114359297A (zh) * | 2022-01-04 | 2022-04-15 | 浙江大学 | 基于注意力金字塔的多分辨率语义分割方法及装置 |
CN114492631A (zh) * | 2022-01-25 | 2022-05-13 | 燕山大学 | 一种基于通道注意力的空间注意力计算方法 |
CN114897094A (zh) * | 2022-06-01 | 2022-08-12 | 西南科技大学 | 一种基于注意力双支路特征融合的食管早癌病灶分割方法 |
CN115457021A (zh) * | 2022-09-30 | 2022-12-09 | 云南大学 | 基于联合注意卷积神经网络的皮肤病图像分割方法及系统 |
CN116310273A (zh) * | 2023-01-10 | 2023-06-23 | 河南工业大学 | 一种基于多空洞卷积和se注意力残差的无人机检测方法 |
CN116052016A (zh) * | 2023-01-14 | 2023-05-02 | 南京信息工程大学 | 基于深度学习的遥感图像云和云影的精细分割检测方法 |
CN116229283A (zh) * | 2023-03-10 | 2023-06-06 | 江西师范大学 | 基于深度可分离卷积模块的遥感图像变化检测系统及方法 |
Non-Patent Citations (2)
Title |
---|
刘芯志 等: "改进残差结构的轻量级故障诊断方法", 《计算机工程与设计》, vol. 43, no. 8, pages 1 - 1 * |
王囡 等: "空洞可分离卷积和注意力机制的实时语义分割", 《中国图象图形学报》, vol. 27, no. 4, pages 1 - 2 * |
Also Published As
Publication number | Publication date |
---|---|
CN116503428B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016507B (zh) | 基于超分辨率的车辆检测方法、装置、设备及存储介质 | |
CN110223304B (zh) | 一种基于多路径聚合的图像分割方法、装置和计算机可读存储介质 | |
CN111445418A (zh) | 图像去雾处理方法、装置及计算机设备 | |
CN112330719B (zh) | 基于特征图分割和自适应融合的深度学习目标跟踪方法 | |
CN110020639B (zh) | 视频特征提取方法及相关设备 | |
US11645512B2 (en) | Memory layouts and conversion to improve neural network inference performance | |
CN111523546A (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN118043858A (zh) | 基于卷积神经网络的图像处理方法和系统 | |
CN112131959A (zh) | 一种基于多尺度特征强化的2d人体姿态估计方法 | |
CN115424104A (zh) | 一种基于特征融合与注意力机制的目标检测方法 | |
CN114821058A (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN115937693A (zh) | 一种基于遥感图像的道路识别方法及系统 | |
CN114049314A (zh) | 一种基于特征重排和门控轴向注意力的医学图像分割方法 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN111179272A (zh) | 一种面向道路场景的快速语义分割方法 | |
CN113554656B (zh) | 基于图神经网络的光学遥感图像实例分割方法及装置 | |
CN116503428B (zh) | 基于精细化全局注意力机制图像特征提取方法和分割方法 | |
CN113723472A (zh) | 一种基于动态滤波等变卷积网络模型的图像分类方法 | |
CN109934132B (zh) | 基于随机丢弃卷积数据的人脸识别方法、系统及存储介质 | |
CN112785498B (zh) | 一种基于深度学习的病理图像超分建模方法 | |
CN114863132A (zh) | 图像空域信息的建模与捕捉方法、系统、设备及存储介质 | |
CN112446893B (zh) | 肝脏图像的轮廓分割方法和装置 | |
CN109146886B (zh) | 一种基于深度密度的rgbd图像语义分割优化方法 | |
Girish et al. | One network doesn't rule them all: Moving beyond handcrafted architectures in self-supervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |