CN116229055A - 基于注意力机制和多维特征融合的图像分割方法 - Google Patents

基于注意力机制和多维特征融合的图像分割方法 Download PDF

Info

Publication number
CN116229055A
CN116229055A CN202211607936.1A CN202211607936A CN116229055A CN 116229055 A CN116229055 A CN 116229055A CN 202211607936 A CN202211607936 A CN 202211607936A CN 116229055 A CN116229055 A CN 116229055A
Authority
CN
China
Prior art keywords
image
attention mechanism
fusion
dimensional
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211607936.1A
Other languages
English (en)
Inventor
刘玲慧
王潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211607936.1A priority Critical patent/CN116229055A/zh
Publication of CN116229055A publication Critical patent/CN116229055A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力机制和多维特征融合的图像分割方法,属于图像处理领域,包括以下步骤:S1:获取并预处理图像,对训练样本按照预设大小进行随机取块并组成训练集;S2:搭建基于多维特征信息与注意力机制的网络模型,包括:编码器:采用二维与三维特征提取自适应融合机制,从多轴面、多维度提取特征,替换传统3D卷积,池化层使用2×2×2的最大池化;解码器:采用注意力机制与多尺度特征的融合及深监督的策略,使用三线性插值的方式进行分辨率还原,最后经过激活函数得到最终的分割结果图;S3:对网络进行调参,将验证数据效果最好的模型进行保存,并对每一个数据进行验证,经过多次交叉验证取最优模型,从而进行图像分割。

Description

基于注意力机制和多维特征融合的图像分割方法
技术领域
本发明属于图像处理领域,涉及一种基于注意力机制和多维特征融合的图像分割方法。
背景技术
目前的图像分割算法主要分为两类:一种是基于传统算法的分割方法,另一种是基于深度学习的分割方法。传统的分割算法又分为基于区域的方法和基于边缘的方法,但由于有些特定的图像边界复杂,以及容积效应的影响,传统方法难以满足一些特定领域图像分割的高精准度要求。
最近,针对一些特定领域的图像分割任务,研究人员提出了各种基于卷积神经网络(CNN)的深度学习方法,并取得了巨大的成功。与传统特征方法提取方法相比,CNN可以以数据驱动的方式训练更好的特征提取模型,并从输入数据中探索有价值的适合分割的表示。但普通的CNN只能提取到局部的特征信息,难以学习全局上下文信息以及提高特征表示能力。因此在网络中结合多维信息及注意力机制便十分重要。
发明内容
有鉴于此,本发明的目的在于提供一种基于注意力机制和多维特征融合的图像分割方法,实现对图像多维特征的充分利用,使得分割结果更加精准。
为达到上述目的,本发明提供如下技术方案:
一种基于注意力机制和多维特征融合的图像分割方法,包括以下步骤:
S1:获取并预处理图像,对训练样本按照预设大小进行随机取块并组成训练集;
S2:搭建基于多维特征信息与注意力机制的网络模型,包括:
编码器:采用二维与三维特征提取自适应融合机制,从多轴面、多维度提取特征,替换传统3D卷积,池化层使用2×2×2的最大池化;
解码器:采用注意力机制与多尺度特征的融合及深监督的策略,使用三线性插值的方式进行分辨率还原,最后经过激活函数得到最终的分割结果图;
S3:对网络进行调参,将验证数据效果最好的模型进行保存,并对每一个数据进行验证,经过多次交叉验证取最优模型,从而进行图像分割。
进一步,在编码器阶段具体包括以下步骤:
通过将三维图像通过极大值映射投影获得多个面最大激活值的二维特征图;
分别通过Non-local自注意力机制学习到其全局注意力信息;
利用Unsqueeze操作恢复到三维图像,与原图进行矩阵乘积操作;
通过自适应加权融合策略得到MA1;
对原图像分别采用1×3×3、3×1×3、3×3×1的非对称卷积进行特征提取;
通过自适应加权融合策略得到MA2;
对原图通过3×3×3的卷积后得到MA3;
通过自适应加权融合策略结合MA1、MA2、MA3获得最终编码器输出特征图。
进一步,在解码器阶段具体包括以下步骤:
使用跨层空间注意力模块,通过解码阶段的特征去约束编码阶段的特征;
使用多尺度特征聚合模块充分融合深层语义与位置信息及精准的边缘信息;
使用深监督机制对每一个编码阶段的输出进行正则化约束。
进一步,每个深监督的网络分支的损失函数使用Focal loss和lovász-softmaxloss的组合损失函数。
本发明的有益效果在于:本发明从多轴面、多维度从图像中提取特征,在学习到充分的空间特征基础上,提高网络的鲁棒性,并引入深监督机制优化网络的梯度传递及收敛速度。
(1)本发明对训练样本进行切块训练,使用随机取块的方式解决硬件算力限制问题;
(2)本发明在在特征提取阶段结合多轴面的极大值突出特征信息,并结合三维非对称卷积替换传统的特征提取方式,最后通过自适应特征融合机制有效整合多维信息,在有效过滤冗余特征信息的同时增强了模型边缘信息提取的能力;
(3)本发明在解码阶段采用了跨层空间注意力机制优化编码层与解码层的特征质量,并结合多尺度特征聚合机制与深监督机制,有效的捕获了边缘细节与长距离依赖的特征信息,同时解决网络梯度消失/爆炸的问题,本发明能够有效提高网络分割的准确度;
(4)本发明网络的上采样路径,通过三线性插值来进行分辨率还原,避免反卷积的棋盘效应。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本实施例基于注意力机制和多维特征融合的图像分割方法流程图;
图2为基于注意力机制和多维特征融合的图像分割方法网络模型结构图;
图3为自适应多维特征提取模型;
图4为特征注意力机制模型;
图5为多尺度特征聚合模型。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图5,本实施例提供一种基于注意力机制和多维特征融合的图像分割方法,具体包括以下几个步骤:
步骤1:对训练样本按照32*32*32像素大小取块,使用随机取样的方式,每次取8个样本输入网络中进行训练。
在本实施例中,数据集为婴儿脑MR图像,其图像分辨率为256*192*144,由于服务器的算力限制,无法将整张图像直接放入模型进行训练,因此需要将图像进行切块取样,在训练的方式,将图像取32*32*32的尺寸匹配当前硬件算力。
步骤2:搭建基于注意力机制合多维特征融合的网络模型。整体模型图如图2所示。
如图3所示,编码器分为3个部分,第一部分采用2D与3D特征自适应提取机制替换传统3D卷积,通过三个轴面的极大值映射结合注意力机制,有效地学习到组织边界信息,再对原三维图像进行矩阵相乘,最后对三个输出进行自适应特征加权融合。第二部分对原图像使用3×3×3的卷积提取特征,作为一个残差连接的补充信息。第三部分采用1×3×3,3×1×3,3×3×1的非对称卷积来学捕获脑组织边缘细粒度及多维特征信息。最后使用自适应加权融合机制结合三个部分的特征信息,得到编码器的输出。在得到输出后,采用最大池化机制进行下采样。
解码器部分为两个部分。如图4所示,第一部分采用跨层注意力机制模块,该模块主要通过解码器输出特征与编码器输出特征进行注意力机制加权约束,矫正特征响应。如图5所示,第二部分采用多尺度特征聚合模块,结合编码器最后一层输出的语义信息、解码器的上一层信息和经过跨层注意力机制模块的输出信息进行通道相加后得到的特征,并在对该特征分别进行上采用和深监督,旨在加快网络收敛速度,避免梯度消失和梯度爆炸。上采样主要通过三线性插值实现,损失函数使用Focal loss和lovász-softmax loss的组合损失函数。
步骤3:使用基于结合多维信息与注意力机制的网络模型对训练集进行训练,并对网络模型进行调参,在验证集验证模型效果时,由于样本数据较少,我们采取十则交叉验证的方法,以使用的婴儿大脑iSeg-2019挑战赛数据集为例,iSeg-2019包含10个数据,取其中9个作为训练集,另外1个数据作为验证数据,验证数据不参与网络的训练,最终网络模型保存验证数据分割结果最好的一版,并根据多次交叉验证的结果来衡量网络的真实性能
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于注意力机制和多维特征融合的图像分割方法,其特征在于:包括以下步骤:
S1:获取并预处理图像,对训练样本按照预设大小进行随机取块并组成训练集;
S2:搭建基于多维特征信息与注意力机制的网络模型,包括:
编码器:采用二维与三维特征提取自适应融合机制,从多轴面、多维度提取特征,替换传统3D卷积,池化层使用2×2×2的最大池化;
解码器:采用注意力机制与多尺度特征的融合及深监督的策略,使用三线性插值的方式进行分辨率还原,最后经过激活函数得到最终的分割结果图;
S3:对网络进行调参,将验证数据效果最好的模型进行保存,并对每一个数据进行验证,经过多次交叉验证取最优模型,从而进行图像分割。
2.根据权利要求1所述的基于注意力机制和多维特征融合的图像分割方法,其特征在于:在编码器阶段具体包括以下步骤:
通过将三维图像通过极大值映射投影获得多个面最大激活值的二维特征图;
分别通过Non-local自注意力机制学习到其全局注意力信息;
利用Unsqueeze操作恢复到三维图像,与原图进行矩阵乘积操作;
通过自适应加权融合策略得到MA1;
对原图像分别采用1×3×3、3×1×3、3×3×1的非对称卷积进行特征提取;
通过自适应加权融合策略得到MA2;
对原图通过3×3×3的卷积后得到MA3;
通过自适应加权融合策略结合MA1、MA2、MA3获得最终编码器输出特征图。
3.根据权利要求1所述的基于注意力机制和多维特征融合的图像分割方法,其特征在于:在解码器阶段具体包括以下步骤:
使用跨层空间注意力模块,通过解码阶段的特征去约束编码阶段的特征;
使用多尺度特征聚合模块充分融合深层语义与位置信息及精准的边缘信息;
使用深监督机制对每一个编码阶段的输出进行正则化约束。
4.根据权利要求3所述的基于注意力机制和多维特征融合的图像分割方法,其特征在于:每个深监督的网络分支的损失函数使用Focal loss和lovász-softmax loss的组合损失函数。
CN202211607936.1A 2022-12-14 2022-12-14 基于注意力机制和多维特征融合的图像分割方法 Pending CN116229055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211607936.1A CN116229055A (zh) 2022-12-14 2022-12-14 基于注意力机制和多维特征融合的图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211607936.1A CN116229055A (zh) 2022-12-14 2022-12-14 基于注意力机制和多维特征融合的图像分割方法

Publications (1)

Publication Number Publication Date
CN116229055A true CN116229055A (zh) 2023-06-06

Family

ID=86584912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211607936.1A Pending CN116229055A (zh) 2022-12-14 2022-12-14 基于注意力机制和多维特征融合的图像分割方法

Country Status (1)

Country Link
CN (1) CN116229055A (zh)

Similar Documents

Publication Publication Date Title
CN110136063B (zh) 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN111369440B (zh) 模型训练、图像超分辨处理方法、装置、终端及存储介质
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN112396645B (zh) 一种基于卷积残差学习的单目图像深度估计方法和系统
CN115482241A (zh) 一种跨模态双分支互补融合的图像分割方法及装置
CN112001914A (zh) 深度图像补全的方法和装置
CN113642585B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN112446835B (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
Zhang et al. An unsupervised remote sensing single-image super-resolution method based on generative adversarial network
CN113658040A (zh) 一种基于先验信息和注意力融合机制的人脸超分辨方法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN114219719A (zh) 基于双重注意力和多尺度特征的cnn医学ct图像去噪方法
CN114359297A (zh) 基于注意力金字塔的多分辨率语义分割方法及装置
Xu et al. AutoSegNet: An automated neural network for image segmentation
Zhou et al. AIF-LFNet: All-in-focus light field super-resolution method considering the depth-varying defocus
CN115936992A (zh) 一种轻量级Transformer的垃圾图像超分辨方法及系统
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
Lu et al. Parallel region-based deep residual networks for face hallucination
Wang et al. Msfnet: multistage fusion network for infrared and visible image fusion
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination