CN114972363A - 图像分割方法、装置、电子设备及计算机存储介质 - Google Patents

图像分割方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN114972363A
CN114972363A CN202210523814.8A CN202210523814A CN114972363A CN 114972363 A CN114972363 A CN 114972363A CN 202210523814 A CN202210523814 A CN 202210523814A CN 114972363 A CN114972363 A CN 114972363A
Authority
CN
China
Prior art keywords
feature map
image
attention
convolution
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210523814.8A
Other languages
English (en)
Inventor
高阳特
孙宇
毕福昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210523814.8A priority Critical patent/CN114972363A/zh
Publication of CN114972363A publication Critical patent/CN114972363A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像处理技术领域,提供一种图像分割方法、装置、电子设备及计算机存储介质。包括:根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。本申请可以缓解梯度消失的问题并提高对细粒度特征的提取能力,快速有效地得到初始特征图,同时可以加强初始特征图上每个特征点的语义表征,提高对不同类别间像素的精细化分割,并且可以增强对目标的识别能力,加强对不同尺度目标的区分以及细化不同类别目标间的特征,因此可以有效提高图像分割的精确度。

Description

图像分割方法、装置、电子设备及计算机存储介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种图像分割方法、装置、电子设备及计算机存储介质。
背景技术
近年来,随着计算机技术和人工智能的发展,图像分割任务逐渐成为计算机视觉领域中的重要内容。其中,遥感图像的语义分割是图像分割任务中的热门分支,遥感图像中的地理空间对象分割作为一种特殊的语义分割任务,可广泛应用于海陆分割、旧城改造、建筑测绘、道路提取、植被覆盖评估等典型任务场景。图像的语义分割是对图像中的每个像素都划分出对应的类别,即实现像素级别的分类,其与运动估计、图像分类、目标检测、目标跟踪等典型任务一同构成了计算机视觉领域的基础问题。但是,让机器学会分割遥感图像中的目标仍是一个艰巨的任务,随着技术的进步和研究者们的创新,逐渐诞生了一系列的经典方法。传统的图像分割方法根据灰度、颜色、纹理和形状等特征将图像进行划分区域,让区域间显差异性,区域内呈相似性,以此分割图像区域,但是通过该方法得到的分割结果精确度较低,导致当前的图像分割精确度低。
发明内容
本申请实施例提供一种图像分割方法、装置、电子设备及计算机存储介质,用以解决因采用传统图像分割方法得到的分割结果精确度较低导致当前的图像分割精确度低的技术问题。
第一方面,本申请实施例提供一种图像分割方法,包括:
根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;
基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;
根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。
在一个实施例中,所述根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图的步骤包括:
对待分割图像进行卷积、批标准化与神经激活处理,得到第一特征图;
对所述第一特征图进行卷积与基于无参数注意力机制的特征提取,得到第二特征图;
将所述待分割图像与所述第二特征图进行图像叠加,得到第三特征图;
基于所述第三特征图确定初始特征图。
在一个实施例中,所述对所述第一特征图进行卷积与基于无参数注意力机制的特征提取,得到第二特征图的步骤包括:
对所述第一特征图进行卷积处理,得到卷积特征图;
根据所述卷积特征图确定能量分布函数;
根据所述能量分布函数与所述卷积特征图生成第二特征图。
在一个实施例中,所述根据所述卷积特征图确定能量分布函数的步骤包括:
根据所述卷积特征图确定特征空间均值;
根据所述特征空间均值计算所述卷积特征图的宽、高在其通道方向的方差;
根据所述特征空间均值、所述方差与能量系数,确定所述卷积特征图的能量分布函数。
在一个实施例中,所述基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图的步骤包括:
对所述初始特征图进行层标准化处理,得到层标准化特征图;
分别确定所述层标准化特征图中各向量的查询向量、键向量与值向量;
根据各所述向量的查询向量、键向量与值向量对所述层标准化特征图进行特征图重建,得到中间特征图。
在一个实施例中,所述根据各所述向量的查询向量、键向量与值向量对所述层标准化特征图进行特征图重建,得到中间特征图的步骤包括:
分别确定各所述向量的查询向量与对应键向量的点积结果;
分别对各所述点积结果进行归一化,得到多个归一化结果;
将各所述归一化结果分别进行加权并与相应向量的值向量进行加和,得到加和结果;
对各所述加和结果进行求和,得到中间特征图。
在一个实施例中,所述根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像的步骤包括:
对所述中间特征图进行卷积、批标准化与神经激活处理,得到第四特征图;
对所述第四特征图进行转置卷积、批标准化与神经激活处理,得到第五特征图;
通过空间注意力和/或通道注意力结合所述第五特征图进行上采样处理,得到分割图像。
第二方面,本申请实施例提供一种图像分割装置,包括:
提取模块,用于根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;
重建模块,用于基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;
上采样模块,用于根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面或第二方面所述的图像分割方法的步骤。
第四方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质为计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时实现第一方面或第二方面所述的图像分割方法的步骤。
本申请实施例提供的图像分割方法、装置、电子设备及计算机存储介质,通过基于注意力的残差结构对待分割图像进行特征提取,可以缓解梯度消失的问题并提高对细粒度特征的提取能力,可以快速有效地得到初始特征图;基于得到的初始特征图进行基于多头自注意力的特征图重建,可以加强初始特征图上每个特征点的语义表征,提高对不同类别间像素的精细化分割,得到分割准确度较高的中间特征图;进一步根据中间特征图进行基于注意力增强的上采样处理,可以增强对目标的识别能力,加强对不同尺度目标的区分,同时细化不同类别目标间的特征,得到具有高精确度的分割图像,因此可以有效提高图像分割的精确度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像分割方法的流程示意图之一;
图2是本申请实施例提供的图像分割方法的流程示意图之二;
图3是本申请实施例提供的图像分割方法的流程示意图之三;
图4是本申请实施例提供的图像分割方法的流程示意图之四;
图5是本申请图像分割装置实施例的功能模块示意图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的图像分割方法的流程示意图之一。参照图1,本申请实施例提供一种图像分割方法,可以包括:
步骤S100,根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;
本实施例中图像分割方法可以应用于电脑、平板电脑、服务器、智能手机等电子设备,并且该电子设备中包括改进后的UNet模型框架,本实施例中改进后的UNet模型称为MA-UNet(Multiattention UNet,多注意力UNet)模型,相对于传统的UNet模型框架,本实施例将残差结构加入原UNet模型的编码器中,并在原UNet模型中加入了四种注意力机制,其中四种注意力机制包括simAM(A Simple,Parameter-Free Attention Module,无参数注意力模型)注意力机制、多头自注意力机制、空间注意力机制与通道注意力机制。同时,相对于原UNet模型,本实施例通过使用步长为2、padding(填充)为1的3x3卷积代替最大池化进行下采样。其中,MA-UNet模型与传统的UNet模型一样包括编码器与解码器,其中编码器可以对输入的图像进行压缩,而解码器则相应的对压缩的图像进行解压还原。
在一个实例中,当用户具有对某一图像进行分割的需求时,可以将需要进行分割的图像输入至电子设备的MA-UNet模型中,例如输入一张大小为256x256x3的图像,通过MA-UNet模型对该图像进行图像分割。另一方面,电子设备在接收到用户输入的需要进行分割的图像后,将该图像确定为待分割图像。需要说明的是,本实施例MA-UNet模型的编码器中可以包括多个基于simAM的残差块以及多个卷积核,其中卷积核的步长可以根据实际需求设置,例如,本实施例MA-UNet模型的编码器中可以包括5个基于simAM的残差块以及5个步长为2的卷积核,其中卷积核用于进行卷积操作。
因此,本实施例中电子设备可以通过MA-UNet模型的编码器中的基于simAM的残差块以及卷积核,对待分割图像进行卷积、批标准化与神经激活处理,将处理得到的特征图确定为第一特征图,批标准化又叫批量归一化,是一种用于改善人工神经网络的性能和稳定性的技术。进一步地,对第一特征图进行卷积与基于无参数注意力机制的特征提取,将处理得到的特征图确定为第二特征图。将得到的第一特征图与第二特征图进行图像叠加,将叠加得到的特征图确定为第三特征图。需要说明的是,上述得到的第三特征图为经过一个残差块与一个卷积核进行一次基于无参数注意力机制的特征提取得到的特征图,而本实施例的编码器中可以包括5个基于simAM的残差块以及5个卷积核,因此还需要根据第三特征图执行多层或多次上述处理步骤,即对第三特征图进行卷积、批标准化与神经激活处理,对处理得到的特征图进行卷积与基于无参数注意力机制的特征提取,将处理得到的特征图与上一步处理得到的特征图进行图像叠加,得到该层的输出特征图,将该层的输出特征图作为下一层的输入进行上述处理,直至完成本实施例中5层的处理,将最终输出的特征图确定为初始特征图。以便于后续基于初始特征图进行基于多头自注意力的特征图重建,得到中间特征图。通过基于注意力的残差结构对待分割图像进行特征提取,可以缓解梯度消失的问题并提高对细粒度特征的提取能力,可以快速有效地得到初始特征图。
步骤S200,基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;
在完成特征提取得到初始特征图后,对初始特征图进行层标准化处理,将得到的特征图确定为层标准化特征图。需要说明的是,层标准化特征图中包括多个向量,因此本实施例中可以分别确定层标准化特征图中各向量的查询向量、键向量与值向量(即Query、Keys、Values vector),即每一向量均存在对应的查询向量、键向量与值向量。进一步地,根据各向量分别对应的查询向量、键向量与值向量,对层标准化特征图进行特征图重建,在完成特征图重建后将得到的特征图确定为中间特征图。以便于后续根据中间特征图进行基于注意力增强的上采样处理,得到分割图像。基于得到的初始特征图进行基于多头自注意力的特征图重建,可以加强初始特征图上每个特征点的语义表征,提高对不同类别间像素的精细化分割,得到分割准确度较高的中间特征图。
步骤S300,根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。
在经过特征图重建得到中间特征图后,对中间特征图进行卷积、批标准化与神经激活处理,将得到的特征图确定为第四特征图。进一步地,对第四特征图进行转置卷积、批标准化与神经激活处理,将得到的特征图确定为第五特征图。进一步地,通过空间注意力和/或通道注意力结合第五特征图进行上采样处理,在上采样处理完成后得到分割图像,并可以将分割图像输出以供用户查看,其中,上采样处理包括将第五特征图与编码器的最后一层输出的特征图进行特征融合,并根据最后一层输出的特征图的尺度大小选择相应的空间注意力或通道注意力结合卷积核进行处理,得到该层的上采样特征图。进一步地,对该层的上采样特征图进行转置卷积、批标准化与神经激活处理,并将处理得到的特征图与上一层输出的特征图进行特征融合,根据上一层输出的特征图的尺度大小选择相应的空间注意力或通道注意力结合卷积核进行处理,得到上一层的上采样特征图,以此类推,直至完成所有层的上采样处理,最后输出的图像即为分割图像。根据中间特征图进行基于注意力增强的上采样处理,可以增强对目标的识别能力,加强对不同尺度目标的区分,同时细化不同类别目标间的特征,得到具有高精确度的分割图像。
本申请实施例提供的图像分割方法,通过基于注意力的残差结构对待分割图像进行特征提取,可以缓解梯度消失的问题并提高对细粒度特征的提取能力,可以快速有效地得到初始特征图;基于得到的初始特征图进行基于多头自注意力的特征图重建,可以加强初始特征图上每个特征点的语义表征,提高对不同类别间像素的精细化分割,得到分割准确度较高的中间特征图;进一步根据中间特征图进行基于注意力增强的上采样处理,可以增强对目标的识别能力,加强对不同尺度目标的区分,同时细化不同类别目标间的特征,得到具有高精确度的分割图像,因此可以有效提高图像分割的精确度。
图2为本申请实施例提供的图像分割方法的流程示意图之二。参照图2,在一个实施例中,所述根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图的步骤包括:
步骤S1001,对待分割图像进行卷积、批标准化与神经激活处理,得到第一特征图;
步骤S1002,对所述第一特征图进行卷积与基于无参数注意力机制的特征提取,得到第二特征图;
步骤S1003,将所述待分割图像与所述第二特征图进行图像叠加,得到第三特征图;
步骤S1004,基于所述第三特征图确定初始特征图。
在得到待分割图像后,本实施例中电子设备可以通过MA-UNet模型的编码器中的基于simAM的残差块以及卷积核,对待分割图像进行卷积运算、批标准化与神经激活处理,具体地,可以为进行Conv3x3+BN+Relu处理,更具体地,可以对待分割图像进行Conv3x3运算,对卷积运算得到的特征图进行批标准化处理,并将批标准化处理得到的特征图通过Relu进行激活,将激活得到的特征图确定为第一特征图。其中,Relu即线性整流函数(Linear rectification function),又称修正线性单元,是一种人工神经网络中常用的激活函数。进一步地,对第一特征图进行卷积运算,并对卷积运算得到的特征图进行基于无参数注意力机制的特征提取(即进行simAM attention处理),将处理得到的特征图确定为第二特征图。将得到的第一特征图与第二特征图进行图像叠加,将叠加得到的特征图确定为第三特征图。
需要说明的是,上述得到的第三特征图为经过一个残差块与一个卷积核进行一次基于无参数注意力机制的特征提取得到的特征图,可以视为进行了一层基于注意力的残差结构的特征提取,而本实施例的编码器中可以包括5个基于simAM的残差块以及5个卷积核,即可以视为具有五层,因此还需要根据第三特征图进行四层基于注意力的残差结构的特征提取,即对第三特征图进行卷积、批标准化与神经激活处理,对处理得到的特征图进行卷积与基于无参数注意力机制的特征提取,将处理得到的特征图与上一步处理得到的特征图进行图像叠加,得到该层的输出特征图,将该层的输出特征图作为下一层的输入进行上述处理,直至完成本实施例中5层的处理,将最终输出的特征图确定为初始特征图。
进一步地,所述对所述第一特征图进行卷积与基于无参数注意力机制的特征提取,得到第二特征图的步骤包括:
步骤S10021,对所述第一特征图进行卷积处理,得到卷积特征图;
步骤S10022,根据所述卷积特征图确定能量分布函数;
步骤S10023,根据所述能量分布函数与所述卷积特征图生成第二特征图。
在得到第一特征图后,对第一特征图进行卷积运算,在完成卷积运算后将得到的特征图确定为卷积特征图。在第一特征图经过卷积后,需要评估得到的卷积特征图中每个神经元的重要性,本实施例可以根据根据卷积特征图确定特征空间均值,根据特征空间均值计算卷积特征图的宽、高在其通道方向的方差,获取预置的能量系数,根据特征空间均值、方差与能量系数,确定出卷积特征图的能量分布函数。在得到能量分布函数后,将能量分布函数输入至公式(1)中进行运算,将完成运算后的特征图确定为第二特征图。其中,公式(1)如下所示:
X*=sigmoid(1/E)·X (1)
其中,X*为增强后的特征图即第二特征图,E为能量分布函数,X为卷积特征图,其中,sigmoid(1/E)为三维注意力权重。
进一步地,所述根据所述卷积特征图确定能量分布函数的步骤包括:
步骤S100221,根据所述卷积特征图确定特征空间均值;
步骤S100222,根据所述特征空间均值计算所述卷积特征图的宽、高在其通道方向的方差;
步骤S100223,根据所述特征空间均值、所述方差与能量系数,确定所述卷积特征图的能量分布函数。
在得到卷积特征图后,将卷积特征图输入至公式(2)中进行运算,在运算完成后得到特征空间均值。其中,公式(2)如下所示:
d=(X-X.mean(dim=[2,3]))2 (2)
其中,d为特征空间均值,X为卷积特征图,mean为平均值,dim为维数。
在得到特征空间均值后,获取卷积特征图的宽与高,并将特征空间均值、宽与高等数据输入至公式(3)进行运算,在运算完成后得到卷积特征图的宽、高在其通道方向的方差。其中,公式(3)如下所示:
Figure BDA0003643187730000111
其中,v为卷积特征图的宽、高在其通道方向的方差,H为卷积特征图的高,W为卷积特征图的宽,d为特征空间均值,dim为维数,sum为求和。
在得到卷积特征图的宽、高在其通道方向的方差后,获取预置的能量系数,并将特征空间均值、方差与能量系数输入至公式(4)进行运算,在运算完成后得到卷积特征图的能量分布函数。其中,公式(4)如下所示:
Figure BDA0003643187730000112
其中,E为能量分布函数,d为特征空间均值,v为卷积特征图的宽、高在其通道方向的方差,ρ为能量系数。
通过基于注意力的残差结构对待分割图像进行特征提取,可以缓解梯度消失的问题并提高对细粒度特征的提取能力,可以快速有效地得到初始特征图。
图3为本申请实施例提供的图像分割方法的流程示意图之三。参照图3,在一个实施例中,所述基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图的步骤包括:
步骤S2001,对所述初始特征图进行层标准化处理,得到层标准化特征图;
步骤S2002,分别确定所述层标准化特征图中各向量的查询向量、键向量与值向量;
步骤S2003,根据各所述向量的查询向量、键向量与值向量对所述层标准化特征图进行特征图重建,得到中间特征图。
需要说明的是,经过5次卷积和5次下采样后,对于输入大小为256×256×3的图像来说,得到的初始特征图大小为8×8×512,即每一维度的特征图只有64个像素,高维特征对应的感受野相对较大,为了进一步提高每个特征点间的关联性和全局性,本实施例通过多头自注意力机制来重构特征图。具体地,在得到初始特征图后,本实施例对初始特征图进行层标准化处理,在完成处理后将得到的特征图确定为层标准化特征图,其中,层标准化与普通的标准化类似,用于将网络中的层进行归一化操作。
在得到层标准化特征图后,通过全连接层为输入的层标准化特征图的各向量分别生成查询向量、键向量和值向量,即对每一向量均生成相应的查询向量、键向量和值向量。进一步地,根据各向量的查询向量、键向量与值向量对层标准化特征图进行特征图重建得到中间特征图,具体为通过查询向量查询所有的候选位置,找到与自身关系密切的向量,其中每个候选位置会有一对键向量和值向量,查询的过程即找到和所有候选位置的键向量做点积的过程,点积结果经过softmax(归一化)后加权到各自的值向量上,将加权后的各值向量进行求和得到的特征图确定为中间特征图。
进一步地,所述根据各所述向量的查询向量、键向量与值向量对所述层标准化特征图进行特征图重建,得到中间特征图的步骤包括:
步骤S20031,分别确定各所述向量的查询向量与对应键向量的点积结果;
步骤S20032,分别对各所述点积结果进行归一化,得到多个归一化结果;
步骤S20033,将各所述归一化结果分别进行加权并与相应向量的值向量进行加和,得到加和结果;
步骤S20034,对各所述加和结果进行求和,得到中间特征图。
在得到各向量分别对应的查询向量、键向量与值向量后,对于每一向量的查询向量,分别与该向量对应的键向量进行点积运算,在完成所有向量的点积运算后得到多个点积结果。进一步地,分别对各点积结果进行归一化运算,在完成运算后得到多个归一化结果。获取预先对各向量设置的权重值(默认均为1,但可根据实际需求对各向量的权重值进行相应调整),将各归一化结果分别与其对应的权重值进行加权运算,将加权运算的结果与该向量对应的值向量进行加和运算,得到该向量的加和结果,在完成所有归一化结果的计算后得到多个加和结果。并对各加和结果进行加和运算,即将各结合结果进行相加,将完成运算后得到的特征图确定为中间特征图。多头自注意力是在自注意力的基础上采用并行化,提高运算效率。其中,对于每一向量的加和结果的计算公式如公式(5)所示:
Figure BDA0003643187730000131
其中,Q为查询向量,K为键向量,V为值向量,softmax为归一化操作,dK为键向量的数量。
在通过多头自注意力将各结合结果进行加和运算时可以通过如下公式(6)实现:
MultiHead(Q,K,V)=Concat(head1……head2)WO (6)
其中,Q为查询向量,K为键向量,V为值向量,Wo为计算权重,head即各向量的加和结果,对于第i个向量的head,则有:
headi=Attention(QWi Q,KWi K,VWi V)
其中,i表示第i个向量,Q为查询向量,K为键向量,V为值向量,WQ i、WK i、WV i分别为各向量中查询向量、键向量、值向量的权重值。
需要说明的是,多头自注意力的输入和输出都是二维矩阵向量,应用分割任务,需要把特征图展平成二维特征矩阵。具体做法为将8×8×512的初始特征图保留通道维度,展平为512×64的二维矩阵,经过层归一化和注意力增强进行特征重建后,输出512×64的二维矩阵,并还原回原特征图大小。
基于得到的初始特征图进行基于多头自注意力的特征图重建,可以加强初始特征图上每个特征点的语义表征,提高对不同类别间像素的精细化分割,得到分割准确度较高的中间特征图。
图4为本申请实施例提供的图像分割方法的流程示意图之四。参照图4,在一个实施例中,所述根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像的步骤包括:
步骤S3001,对所述中间特征图进行卷积、批标准化与神经激活处理,得到第四特征图;
步骤S3002,对所述第四特征图进行转置卷积、批标准化与神经激活处理,得到第五特征图;
步骤S3003,通过空间注意力和/或通道注意力结合所述第五特征图进行上采样处理,得到分割图像。
在经过特征图重建得到中间特征图后,即完成了图像编码阶段,可以进入解码阶段,通过解码器对中间特征图进行解码以将图像恢复至原图尺寸,得到分割图像。需要说明的是,传统UNet模型的解码器由双线性插值、特征拼接和两个3x3的卷积层构成,经过反复的上采样与卷积的操作,最后通过1×1卷积将通道数降低至特定的数量,得到分割结果图。本实施例使用转置卷积代替双线性插值进行上采样,在基于跳跃连接的特征融合阶段,使用注意力机制来增强融合后的特征。由于低分辨率的高维特征经过上采样后,简单的特征拼接很容易将不同尺度目标的特征混淆,特别是当它们的边界相邻时,其轮廓是模糊和不规则的。因此,本实施例设计了注意力增强模块来增强识别能力,加强对不同尺度目标的区分,同时细化不同类别目标间的特征。
具体地,对中间特征图进行卷积、批标准化与神经激活处理,将得到的特征图确定为第四特征图。进一步地,对第四特征图进行转置卷积、批标准化与神经激活处理,将得到的特征图确定为第五特征图。进一步地,通过空间注意力和/或通道注意力结合第五特征图进行上采样处理,在上采样处理完成后得到分割图像,并可以将分割图像输出以供用户查看,其中,上采样处理包括将第五特征图与编码器的最后一层输出的特征图进行特征融合,并根据最后一层输出的特征图的尺度大小选择相应的空间注意力或通道注意力结合卷积核进行处理,得到该层的上采样特征图。进一步地,对该层的上采样特征图进行转置卷积、批标准化与神经激活处理,并将处理得到的特征图与上一层输出的特征图进行特征融合,根据上一层输出的特征图的尺度大小选择相应的空间注意力或通道注意力结合卷积核进行处理,得到上一层的上采样特征图,以此类推,直至完成所有层的上采样处理,最后输出的图像即为分割图像。
需要说明的是,而高维的特征往往被压缩在通道中,因此,对后两个较小尺度的特征图(即后两层经过基于无参数注意力机制的特征提取后输出的特征图),将对应层经过转置卷积后的特征图(例如第五特征图)与该层基于无参数注意力机制的特征提取后输出的特征图(例如与第五特征图对应层基于无参数注意力机制的特征提取后输出的特征图)进行特征融合,使用通道注意力来对融合后的特征图进行整合,具体为:对融合后的特征图通过卷积运算进一步提取特征,对卷积后的特征图分别在空间维度上进行平均池化和最大池化,经过线性映射和相加后,通过激活函数得到通道权重系数,最后,将通道权重系数与原特征图进行乘法得到增强后的特征图,并对该特征图进行卷积、批标准化与神经激活处理后将得到的特征图作为上一层的输入以由上一层对其进行转置卷积及其他操作。
浅层的特征由于其特征图分辨率相对较大,空间的特征分布对特征融合的影响更大,因此,在一个实施例中,对前三个较大尺度的特征图(即前三层经过基于无参数注意力机制的特征提取后输出的特征图),将对应层经过转置卷积后的特征图与该层基于无参数注意力机制的特征提取后输出的特征图进行特征融合,并使用空间注意力来对融合后的特征图进行整合,具体为:对融合后的特征图通过卷积运算进一步提取特征,对卷积后的特征图分别在通道维度上进行平均池化和最大池化,并拼接在一起,然后,经过卷积和激活后得到空间权重系数,最后,将空间权重系数与原特征图进行乘法运算得到增强后的特征图,并对该特征图进行卷积、批标准化与神经激活处理后将得到的特征图作为上一层的输入,直至得到第一层增强后的特征图,对该特征图进行两次卷积、批标准化与神经激活处理,得到最终的分割图像。通过在不同尺度的特征融合阶段分别使用了通道注意力和空间注意力机制,可以更好地融合不同尺度目标的特征信息。
根据中间特征图进行基于注意力增强的上采样处理,可以增强对目标的识别能力,加强对不同尺度目标的区分,同时细化不同类别目标间的特征,得到具有高精确度的分割图像。
进一步需要说明的是,由于对于分割任务而言,每个类别的像素点总量为样本量,当类别数量较多时,往往会出现不同类别样本量不平衡的问题,这使得MA-UNet模型的网络会更加偏重预测样本量较多的类别,从而带来更低的预测损失,这样的预测结果会使得样本量少的类别分割效果差,当样本量较少的类别的像素被错误划分其他类别的像素后,也变相降低了其他类别的准确率。针对多类目标类别不平衡的问题,本实施例使用加权交叉熵损失,通过调整不同类别的权值收益,使得不同类别分错的损失代价不同,为样本量较少的类别赋予更大的权值,为样本量较大的类别赋予较小的权值,使网络更注重样本量较少的类别,其中改进后的交叉熵损失公式如下所示:
Figure BDA0003643187730000171
其中,m为样本的数量;n为类别的数量;k为对应于当前类别的权重;y为当前样本对应的真实类别是否是i这个类别,如果是则为1,不是则为0;y*为模型预测的当前样本点是i这个类别的概率。
针对多类目标类别不平衡的问题,本实施例使用加权交叉熵损失,使模型更注重样本量较少的类别,有利于提高基于该模型进行图像分割的精确度。
进一步地,本申请还提供一种图像分割装置。
参照图5,图5为本申请图像分割装置实施例的功能模块示意图。
所述图像分割装置包括:
提取模块100,用于根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;
重建模块200,用于基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;
上采样模块300,用于根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。
本申请实施例提供的图像分割装置,通过基于注意力的残差结构对待分割图像进行特征提取,可以缓解梯度消失的问题并提高对细粒度特征的提取能力,可以快速有效地得到初始特征图;基于得到的初始特征图进行基于多头自注意力的特征图重建,可以加强初始特征图上每个特征点的语义表征,提高对不同类别间像素的精细化分割,得到分割准确度较高的中间特征图;进一步根据中间特征图进行基于注意力增强的上采样处理,可以增强对目标的识别能力,加强对不同尺度目标的区分,同时细化不同类别目标间的特征,得到具有高精确度的分割图像,因此可以有效提高图像分割的精确度。
在一个实施例中,提取模块100具体用于:
对待分割图像进行卷积、批标准化与神经激活处理,得到第一特征图;
对所述第一特征图进行卷积与基于无参数注意力机制的特征提取,得到第二特征图;
将所述待分割图像与所述第二特征图进行图像叠加,得到第三特征图;
基于所述第三特征图确定初始特征图。
在一个实施例中,提取模块100包括第一确定模块(图中未示出),所述第一确定模块用于:
对所述第一特征图进行卷积处理,得到卷积特征图;
根据所述卷积特征图确定能量分布函数;
根据所述能量分布函数与所述卷积特征图生成第二特征图。
在一个实施例中,第一确定模块100包括第二确定模块(图中未示出),所述第二确定模块用于:
根据所述卷积特征图确定特征空间均值;
根据所述特征空间均值计算所述卷积特征图的宽、高在其通道方向的方差;
根据所述特征空间均值、所述方差与能量系数,确定所述卷积特征图的能量分布函数。
在一个实施例中,重建模块200具体用于:
对所述初始特征图进行层标准化处理,得到层标准化特征图;
分别确定所述层标准化特征图中各向量的查询向量、键向量与值向量;
根据各所述向量的查询向量、键向量与值向量对所述层标准化特征图进行特征图重建,得到中间特征图。
在一个实施例中,重建模块200包括计算模块(图中未示出),所述计算模块用于:
分别确定各所述向量的查询向量与对应键向量的点积结果;
分别对各所述点积结果进行归一化,得到多个归一化结果;
将各所述归一化结果分别进行加权并与相应向量的值向量进行加和,得到加和结果;
对各所述加和结果进行求和,得到中间特征图。
在一个实施例中,上采样模块300具体用于:
对所述中间特征图进行卷积、批标准化与神经激活处理,得到第四特征图;
对所述第四特征图进行转置卷积、批标准化与神经激活处理,得到第五特征图;
通过空间注意力和/或通道注意力结合所述第五特征图进行上采样处理,得到分割图像。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序,以执行图像分割方法的步骤,例如包括:
根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;
基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;
根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种计算机存储介质,所述计算机存储介质为计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行上述各实施例提供的方法的步骤,例如包括:
根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;
基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;
根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。
所述计算机可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种图像分割方法,其特征在于,包括:
根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;
基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;
根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。
2.根据权利要求1所述的图像分割方法,其特征在于,所述根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图的步骤包括:
对待分割图像进行卷积、批标准化与神经激活处理,得到第一特征图;
对所述第一特征图进行卷积与基于无参数注意力机制的特征提取,得到第二特征图;
将所述待分割图像与所述第二特征图进行图像叠加,得到第三特征图;
基于所述第三特征图确定初始特征图。
3.根据权利要求2所述的图像分割方法,其特征在于,所述对所述第一特征图进行卷积与基于无参数注意力机制的特征提取,得到第二特征图的步骤包括:
对所述第一特征图进行卷积处理,得到卷积特征图;
根据所述卷积特征图确定能量分布函数;
根据所述能量分布函数与所述卷积特征图生成第二特征图。
4.根据权利要求3所述的图像分割方法,其特征在于,所述根据所述卷积特征图确定能量分布函数的步骤包括:
根据所述卷积特征图确定特征空间均值;
根据所述特征空间均值计算所述卷积特征图的宽、高在其通道方向的方差;
根据所述特征空间均值、所述方差与能量系数,确定所述卷积特征图的能量分布函数。
5.根据权利要求1所述的图像分割方法,其特征在于,所述基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图的步骤包括:
对所述初始特征图进行层标准化处理,得到层标准化特征图;
分别确定所述层标准化特征图中各向量的查询向量、键向量与值向量;
根据各所述向量的查询向量、键向量与值向量对所述层标准化特征图进行特征图重建,得到中间特征图。
6.根据权利要求5所述的图像分割方法,其特征在于,所述根据各所述向量的查询向量、键向量与值向量对所述层标准化特征图进行特征图重建,得到中间特征图的步骤包括:
分别确定各所述向量的查询向量与对应键向量的点积结果;
分别对各所述点积结果进行归一化,得到多个归一化结果;
将各所述归一化结果分别进行加权并与相应向量的值向量进行加和,得到加和结果;
对各所述加和结果进行求和,得到中间特征图。
7.根据权利要求1所述的图像分割方法,其特征在于,所述根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像的步骤包括:
对所述中间特征图进行卷积、批标准化与神经激活处理,得到第四特征图;
对所述第四特征图进行转置卷积、批标准化与神经激活处理,得到第五特征图;
通过空间注意力和/或通道注意力结合所述第五特征图进行上采样处理,得到分割图像。
8.一种图像分割装置,其特征在于,包括:
提取模块,用于根据基于注意力的残差结构对待分割图像进行特征提取,得到初始特征图;
重建模块,用于基于所述初始特征图进行基于多头自注意力的特征图重建,得到中间特征图;
上采样模块,用于根据所述中间特征图进行基于注意力增强的上采样处理,得到分割图像。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的图像分割方法的步骤。
10.一种计算机存储介质,所述计算机存储介质为计算机可读存储介质,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的图像分割方法的步骤。
CN202210523814.8A 2022-05-13 2022-05-13 图像分割方法、装置、电子设备及计算机存储介质 Pending CN114972363A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210523814.8A CN114972363A (zh) 2022-05-13 2022-05-13 图像分割方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210523814.8A CN114972363A (zh) 2022-05-13 2022-05-13 图像分割方法、装置、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114972363A true CN114972363A (zh) 2022-08-30

Family

ID=82983884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210523814.8A Pending CN114972363A (zh) 2022-05-13 2022-05-13 图像分割方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114972363A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115430066A (zh) * 2022-09-13 2022-12-06 苏州雷泰医疗科技有限公司 超声装置、包括该超声装置的放射治疗设备及其工作方法
CN116206331A (zh) * 2023-01-29 2023-06-02 阿里巴巴(中国)有限公司 图像处理方法、计算机可读存储介质以及计算机设备
CN116363134A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN116665016A (zh) * 2023-06-26 2023-08-29 中国科学院长春光学精密机械与物理研究所 一种基于改进YOLOv5的单帧红外弱小目标检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115430066A (zh) * 2022-09-13 2022-12-06 苏州雷泰医疗科技有限公司 超声装置、包括该超声装置的放射治疗设备及其工作方法
CN116206331A (zh) * 2023-01-29 2023-06-02 阿里巴巴(中国)有限公司 图像处理方法、计算机可读存储介质以及计算机设备
CN116206331B (zh) * 2023-01-29 2024-05-31 阿里巴巴(中国)有限公司 图像处理方法、计算机可读存储介质以及计算机设备
CN116363134A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN116363134B (zh) * 2023-06-01 2023-09-05 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN116665016A (zh) * 2023-06-26 2023-08-29 中国科学院长春光学精密机械与物理研究所 一种基于改进YOLOv5的单帧红外弱小目标检测方法
CN116665016B (zh) * 2023-06-26 2024-02-23 中国科学院长春光学精密机械与物理研究所 一种基于改进YOLOv5的单帧红外弱小目标检测方法

Similar Documents

Publication Publication Date Title
CN114972363A (zh) 图像分割方法、装置、电子设备及计算机存储介质
Lim et al. DSLR: Deep stacked Laplacian restorer for low-light image enhancement
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN115690002A (zh) 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统
CN110706302A (zh) 一种文本合成图像的系统及方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN111191735B (zh) 基于数据差异和多尺度特征的卷积神经网络影像分类方法
CN114677412B (zh) 一种光流估计的方法、装置以及设备
CN113706686A (zh) 一种三维点云重建结果补全方法及相关组件
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN110738663A (zh) 双域适应模块金字塔型网络及无监督域适应图像分割方法
CN115345866B (zh) 一种遥感影像中建筑物提取方法、电子设备及存储介质
Liu et al. An efficient residual learning neural network for hyperspectral image superresolution
CN114663440A (zh) 一种基于深度学习的眼底图像病灶分割方法
CN114241274A (zh) 一种基于超分辨率多尺度特征融合的小目标检测方法
CN111899203B (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN115222998B (zh) 一种图像分类方法
CN112115972B (zh) 基于残差连接的深度可分离卷积高光谱图像分类方法
CN113723366A (zh) 一种行人重识别方法、装置及计算机设备
CN117095287A (zh) 一种基于时空交互Transformer模型的遥感图像变化检测方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN116485815A (zh) 基于双尺度编码器网络的医学图像分割方法、设备和介质
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
CN115471675A (zh) 一种基于频域增强的伪装对象检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination