CN112465828A

CN112465828A - 一种图像语义分割方法、装置、电子设备及存储介质

Info

Publication number: CN112465828A
Application number: CN202011479962.1A
Authority: CN
Inventors: 丁辉; 尚媛园; 聂煜峰; 邵珠宏; 刘铁
Original assignee: Capital Normal University
Current assignee: Yisheng Yiheng Beijing Medical Technology Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-09
Anticipated expiration: 2040-12-15

Abstract

本申请提供一种图像语义分割方法、装置、电子设备及存储介质，用于改善对实际采集的图像进行语义分割的准确率不高的问题。该方法包括：获得待处理图像；使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征；使用注意力感知网络模型中的多个调制注意力网络对多尺度特征和空间注意力特征进行调制，获得多层调制特征；使用注意力感知网络模型中的深度监督网络提取多层调制特征中的上采样特征，并对上采样特征和多层调制特征进行上采样和级联融合，获得融合特征；使用注意力感知网络模型中的解码器网络对融合特征进行语义分割，获得语义分割后的图像。

Description

一种图像语义分割方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉和语义分割的技术领域，具体而言，涉及一种图像语义分割方法、装置、电子设备及存储介质。

背景技术

语义分割(semantic segmentation)，从字面意思上理解就是让计算机根据图像的语义来进行分割；语义在语音识别中指的是语音的意思，在图像领域，语义指的是图像的内容，即对图片中表达的意思进行理解；分割的意思是从像素的角度分割出图片中的不同对象，对原图中的每个像素都进行分类标注。

在语义分割的具体任务中，对实际采集的图像进行语义分割通常有很多困难，这些困难例如：图像中存在类间歧义和小区域难以被检测分割等等；语义分割的具体任务例如：识别路上的行人、障碍物和交通标识等等，或者，识别临床脑肿瘤图像或者其他肿瘤图像等等；上述的类间歧义例如有些肿瘤区域中的像素点与正常组织中的像素点相似性高，容易被误分类。因此，现有的语义分割技术中存在类间歧义和小区域难以被检测分割等困难，导致对实际采集的图像进行语义分割的准确率不高。

发明内容

本申请实施例的目的在于提供一种图像语义分割方法、装置、电子设备及存储介质，用于改善对实际采集的图像进行语义分割的准确率不高的问题。

本申请实施例提供了一种图像语义分割方法，包括：获得待处理图像；使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征；使用注意力感知网络模型中的多个调制注意力网络对多尺度特征和空间注意力特征进行调制，获得多层调制特征；使用注意力感知网络模型中的深度监督网络提取多层调制特征中的上采样特征，并对上采样特征和多层调制特征进行上采样和级联融合，获得融合特征；使用注意力感知网络模型中的解码器网络对融合特征进行语义分割，获得语义分割后的图像。在上述的实现过程中，通过使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征，有效地利用了图像中的多尺度信息，并让模型更加关注多尺度信息中的重要像素，这些重要的像素就是可能存在类间歧义的像素或者重要的小区域中的像素，从而克服了存在类间歧义和小区域难以被检测分割等困难，提高了对实际采集的图像进行语义分割的准确率不高。

可选地，在本申请实施例中，编码器网络包括：分组卷积模块和注意力机制分层多尺度AHMS模块；使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征，包括：使用分组卷积模块对待处理图像进行分组卷积，获得分组卷积特征；使用AHMS模块从分组卷积特征中分别提取多尺度特征和空间注意力特征。在上述的实现过程中，通过使用注意力分层多尺度AHMS模块从输入图像中提取出多尺度特征和空间注意力特征，这些特征可以体现出多尺度信息和空间注意力信息，从而减少了注意力感知网络模型中的卷积核与特征图之间的联系，有效地减少了注意力感知网络模型中使用的网络参数量。

可选地，在本申请实施例中，多尺度特征包括：第一尺度特征和第二尺度特征；使用AHMS模块从分组卷积特征中分别提取多尺度特征和空间注意力特征，包括：使用AHMS模块中的逐点卷积层从分组卷积特征中提取出第一尺度特征；使用AHMS模块中的膨胀分组卷积层从第一尺度特征中提取出第二尺度特征；使用AHMS模块中的卷积层对应的激活函数对第二尺度特征进行运算，获得权重激活图；将权重激活图与分组卷积特征进行加权融合，获得空间注意力特征。在上述的实现过程中，通过使用AHMS模块对分组卷积特征进行逐点卷积、膨胀卷积、分组卷积和激活等等运算过程，从而让注意力感知网络模型关注待处理图像的多尺度信息中的可能存在类间歧义的像素或者重要的小区域中的像素点，从而克服了存在类间歧义和小区域难以被检测分割等困难，提高了对实际采集的图像进行语义分割的准确率不高。

可选地，在本申请实施例中，调制特征包括：比例参数和平移参数，调制注意力网络包括：仿射变换层和上采样网络层；使用注意力感知网络模型中的多个调制注意力网络对多尺度特征和空间注意力特征进行调制，包括：使用上采样网络层对空间注意力特征进行上采样，获得同分辨率特征；使用仿射变换层对同分辨率特征和多尺度特征进行仿射变换，获得比例参数和平移参数。在上述的实现过程中，通过在融合每层空间和语义特征之前使用调制注意力网络，该调制注意力网络可以获得结合细节信息和语义信息的上下文特征，并自动增强与任务有关的信息，抑制与任务无关的信息，从而有效避免了模型信息的混乱。

可选地，在本申请实施例中，解码器网络包括：分类器；使用注意力感知网络模型中的解码器网络对融合特征进行语义分割，获得语义分割后的图像，包括：使用分类器对融合特征中的每个像素点进行分类，获得多个分类后的像素点；将多个分类后的像素点拼接成语义分割后的图像。

在上述的实现过程中，通过使用分类器对融合特征中的每个像素点进行分类，获得多个分类后的像素点，并将多个分类后的像素点拼接成语义分割后的图像，从而针对每个像素点都进行分类，有效地提高了对待处理图像对应的融合特征进行语义分割的准确率。

可选地，在本申请实施例中，在使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征之前，还包括：获得多个样本图像和多个样本标签，样本标签是对样本图像进行语义分割后获得的；以多个样本图像为训练数据，以多个样本标签为训练标签，对注意力感知网络进行训练，获得训练后的注意力感知网络模型。

可选地，在本申请实施例中，待处理图像为医学图像；获得待处理图像，包括：接收终端设备发送的医学图像；在获得语义分割后的图像之后，包括：向终端设备发送语义分割图像，语义分割图像是对医学图像进行语义分割后获得的。在上述的实现过程中，通过接收终端设备发送的医学图像，并向终端设备发送对医学图像进行语义分割后获得的语义分割图像，从而为终端设备提供了医学图像的语义分割服务。

本申请实施例还提供了一种图像语义分割装置，包括：图像获得模块，用于获得待处理图像；特征提取模块，用于使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征；特征调制模块，用于使用注意力感知网络模型中的多个调制注意力网络对多尺度特征和空间注意力特征进行调制，获得多层调制特征；特征融合模块，用于使用注意力感知网络模型中的深度监督网络提取多层调制特征中的上采样特征，并对上采样特征和多层调制特征进行上采样和级联融合，获得融合特征；语义分割模块，用于使用注意力感知网络模型中的解码器网络对融合特征进行语义分割，获得语义分割后的图像。

可选地，在本申请实施例中，编码器网络包括：分组卷积模块和注意力机制分层多尺度AHMS模块；特征提取模块，包括：特征分组卷积模块，用于使用分组卷积模块对待处理图像进行分组卷积，获得分组卷积特征；特征分别提取模块，用于使用AHMS模块从分组卷积特征中分别提取多尺度特征和空间注意力特征。

可选地，在本申请实施例中，多尺度特征包括：第一尺度特征和第二尺度特征；特征分别提取模块，包括：特征逐点卷积模块，用于使用AHMS模块中的逐点卷积层从分组卷积特征中提取出第一尺度特征；膨胀分组卷积模块，用于使用AHMS模块中的膨胀分组卷积层从第一尺度特征中提取出第二尺度特征；权重激活运算模块，用于使用AHMS模块中的卷积层对应的激活函数对第二尺度特征进行运算，获得权重激活图；特征加权融合模块，将权重激活图与分组卷积特征进行加权融合，获得空间注意力特征。

可选地，在本申请实施例中，调制特征包括：比例参数和平移参数，调制注意力网络包括：仿射变换层和上采样网络层；特征调制模块，包括：分辨率上采样模块，用于使用上采样网络层对空间注意力特征进行上采样，获得同分辨率特征；特征仿射变换模块，用于使用仿射变换层对同分辨率特征和多尺度特征进行仿射变换，获得比例参数和平移参数。

可选地，在本申请实施例中，解码器网络包括：分类器；语义分割模块，包括：像素点分类模块，用于使用分类器对融合特征中的每个像素点进行分类，获得多个分类后的像素点；像素点拼接模块，用于将多个分类后的像素点拼接成语义分割后的图像。

可选地，在本申请实施例中，图像语义分割装置，还包括：图像标签获得模块，用于获得多个样本图像和多个样本标签，样本标签是对样本图像进行语义分割后获得的；网络模型训练模块，用于以多个样本图像为训练数据，以多个样本标签为训练标签，对注意力感知网络进行训练，获得训练后的注意力感知网络模型。

可选地，在本申请实施例中，待处理图像为医学图像；图像语义分割装置，还包括：医学图像接收模块，用于接收终端设备发送的医学图像；分割图像发送模块，用于向终端设备发送语义分割图像，语义分割图像是对医学图像进行语义分割后获得的。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的图像语义分割方法的流程示意图；

图2示出的本申请实施例提供的注意力感知网络的结构示意图；

图3示出的本申请实施例提供的其中一种具体AHMS模块的结构示意图；

图4示出的本申请实施例提供的其中一种具体调制注意力网络的结构示意图；

图5示出的本申请实施例提供的比例参数和平移参数的计算流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的图像语义分割方法之前，先介绍本申请实施例中所涉及的一些概念：

注意力机制(Attention Mechanism)源于对人类视觉的研究；在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息；上述机制通常被称为注意力机制。

分组卷积(Group Convolution)，是指被用来切分网络的卷积操作，使其在多个图形处理单元(Graphics Processing Unit，GPU)上并行运行。

膨胀卷积(Dilated Convolution)，也称空洞卷积，是在标准卷积的卷积图的基础上注入空洞，以此来增加感受野(reception field)。因此，膨胀卷积在标准卷积的基础上又多了一个超参数称之为膨胀率，该膨胀率指的是卷积核(kernel)的间隔数量。

上采样(Upsample)，是指在深度学习领域中，由于输入图像通过卷积神经网络提取特征后，输出的尺寸往往会变小，而在需要将特征图恢复到原来的尺寸的时候，以便进行进一步的计算(具体例如：图像的语义分割)，采用扩大图像尺寸，实现图像由小分辨率到大分辨率的映射的操作，可以理解为上采样操作。

需要说明的是，本申请实施例提供的图像语义分割方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，此处的服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。

在介绍本申请实施例提供的图像语义分割方法之前，先介绍该图像语义分割方法适用的应用场景，这里的应用场景包括但不限于：自动驾驶领域和医学领域等。在自动驾驶领域的应用场景例如：使用该图像语义分割方法识别路上的行人、障碍物和交通标识等等；在医学领域的应用场景例如：使用该图像语义分割方法识别临床中的脑肿瘤图像或者其他肿瘤图像等等；下面为了便于理解和说明，以医学领域中的识别脑肿瘤图像为例进行说明，此处的脑肿瘤图像可以是使用磁共振成像获得的。

请参见图1示出本申请实施例提供的图像语义分割方法的流程示意图；该图像语义分割方法的主要思路是，通过使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征，有效地利用了图像中的多尺度信息，并让模型更加关注多尺度信息中的重要像素，这些重要的像素就是可能存在类间歧义的像素或者重要的小区域中的像素，从而克服了存在类间歧义和小区域难以被检测分割等困难，提高了对实际采集的图像进行语义分割的准确率不高，上述的图像语义分割方法可以包括：

步骤S110：获得待处理图像。

上述步骤S110中的待处理图像的获得方式包括：第一种获得方式，使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得待处理图像；然后该终端设备向电子设备发送待处理图像，然后电子设备接收终端设备发送的待处理图像，电子设备可以将待处理图像存储至文件系统、数据库或移动存储设备中；第二种获得方式，获取预先存储的待处理图像，具体例如：从文件系统中获取待处理图像，或者从数据库中获取待处理图像，或者从移动存储设备中获取待处理图像；第三种获得方式，使用浏览器等软件获取互联网上的待处理图像，或者使用其它应用程序访问互联网获得待处理图像。

在步骤S110之后，执行步骤S120：使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征。

请参见图2示出的本申请实施例提供的注意力感知网络的结构示意图；注意力感知网络(Attention Perception Network)模型，又被称为有效的注意力网络(EffectiveAttention Network，EA-Net)模型，是指使用注意力机制来感知图像中的多尺度信息和空间注意力信息的神经网络模型；该EA-Net模型依据功能可以划分为：提取器(Extractor)网络、调制特征(Modulated Feature)网络、深度监督(Deep Supervision)网络和净化子网络(Purificatory Subnetwork)；其中，调制特征网络包括多个调制注意力(ModulatedAttention，MA)网络，此处的调制注意力网络又被简称为MA网络或者MA模块，每个网络的具体结构和相互关系将在下面详细地说明。可以理解的是，在深度学习分割网络中把提取特征的网络部分称为编码器，因此上述的提取器网络也可以称之为编码器网络；把恢复输入图像分辨率，输出最终的分割结果的网络部分称为解码器，因此，净化子网络也可以称之为解码器网络。

编码器网络，又被称为提取器(Extractor)，是对输入的图像提取代表性特征的神经网络，此处的代表性特征例如：多尺度特征和空间注意力特征；此处的编码器网络可以包括：分组卷积模块和注意力机制分层多尺度(Attentive Hierarchical MultiScale，AHMS)模块；其中，AHMS模块有时也被翻译为注意力分层多尺度模块，编码器网络也可以是由两个标准的分组卷积块和两个AHMS模块组成。

注意力机制分层多尺度模块，又被简称为AHMS模块，是指能够提取多尺度特征和空间注意力特征的神经网络模块，AHMS模块的设计思路是，在尽可能提取有效特征的情况下，同时能够降低模型参数，所以在设计过程中应用了膨胀卷积进行多尺度特征提取，分组卷积进行分层特征提取；然后在得到分层提取的特征之后，传统方法是将特征直接相加或者级联，AHMS模块通过融入空间注意力机制对特征进行提炼之后再相加，进一步增强模型的特征表达能力。

请参见图3示出的本申请实施例提供的其中一种具体AHMS模块的结构示意图；图中的元素级加和(Element-wise Sum)是指对图像中的像素点进行加和，当图像使用矩阵表示时，就是指对矩阵中的元素进行加和，同理地，元素级相乘(Element-wise Multiple)是指图像中的像素点进行相乘；Sigmoid函数(Sigmoid Function)是激活函数。假设经过预处理的输入特征图表示为

CONV代表卷积层，其中，C、H、W和D分别是输入特征图的通道数、高度、宽度和深度，

表示实数域；假设使用F_r,g ^k×k×k来表示标准3维度(3D)卷积，那么k×k×k是卷积核的大小，每个k表示一个维度，r是膨胀率(rate)，g指的是组数(group)，k、r和g是正整数，且组数g可以被通道数C整除。可以理解的是，如果将组号设置为1，即g＝1，那么F_r,g ^k×k×k与F_r ^k×k×k均能够表示这种情况；同理，将膨胀率设置为1，那么可以用F^k×k×k来表示膨胀率为1且组号为1的情况；特殊地，F^1×1×1表示逐点3D卷积(即1×1×1卷积)。

上述步骤S120的实施方式可以包括如下步骤：

步骤S121：使用分组卷积模块对待处理图像进行分组卷积，获得分组卷积特征。

上述步骤S121的实施方式例如：使用两个标准的分组卷积块对待处理图像进行分组卷积，获得分组卷积特征；其中，标准分组卷积块由一系列具有1的扩张速率的分组卷积组成；具体例如：在进入膨胀的分组卷积之前，首先用两个逐点卷积处理输入特征图，该特征图表示为

该公式中的字母含义已经在上面介绍过；处理输入特征图的具体过程使用公式可以表示为X₁＝F^1×1×1(X)，其中生成的特征图X₁的通道号为C/4，然后将X₁输入另一个逐点卷积，可以使用公式表示为X₂＝F^1×1×1(X₁)：其中，生成的特征图X₂具有与输入特征X相同数量的通道。

在上述在进入膨胀的分组卷积之前，首先用两个逐点卷积处理的原因在于，在使用分组卷积的过程中，通过将输入特征的通道进行分组之后，对进入分组通道的特征图进行卷积，从而减少模型的参数量，输入特征通道之间的信息交换减少，可能导致模型的最终预测结果不准确。因此，在输入特征进入分组卷积之前，可以使用两个逐点卷积在输入特征的所有通道之间交换信息。将第一个逐点卷积后的输出通道数减少四分之一的原因是减少模型参数，即采用两个逐点卷积(parameters＝c×c/4+c×c/4＝c²/2)，比在相同内核大小下使用一次逐点卷积节省了一半的参数(parameters＝c×c＝c²)。

步骤S122：使用AHMS模块从分组卷积特征中分别提取多尺度特征和空间注意力特征。

上述的多尺度特征可以包括第一尺度特征和第二尺度特征；上述的步骤S122的实施方式例如：使用AHMS模块中的逐点卷积层从分组卷积特征中提取出第一尺度特征；使用AHMS模块中的膨胀分组卷积层从第一尺度特征中提取出第二尺度特征；使用AHMS模块中的卷积层对应的激活函数对第二尺度特征进行运算，获得权重激活图；将权重激活图与分组卷积特征进行加权融合，获得空间注意力特征。使用注意力分层多尺度AHMS模块可以有效地减少注意力感知网络模型中的卷积核与特征图之间的联系，此处的卷积核与特征图之间的联系为，卷积核以一定的感受野(即卷积核大小)与特征图对应位置进行卷积操作，提取特征图的局部特征；使用AHMS模块减少注意力感知网络模型中的卷积核与特征图之间的联系的技术原理具体例如：为了获得更大的感受野，传统的方法是把卷积核的核大小调大，例如3*3变为5*5，这样一来感受野会增大，同时参与运算的像素点也会增加(即运算量增加)，而使用AHMS模块中的膨胀卷积可以用3*3的运算量获得5*5的感受野，即减少了卷积核与特征图之间的联系，从而达到减少模型参数的作用。

在大量的研究之后发现，多尺度特征可获取更全面和有效的上下文信息，从而提高分割精度。受这一事实的启发，在AHMS模块中添加了多尺度特征提取，该功能可以通过空间关注机制自动关注特征图中的重要区域。上述的多尺度信息的提取过程可以使用公式表示为：

其中，卷积核的感受野随膨胀率的增加而扩展；通过使用膨胀卷积，该AHMS模块可以有效地从不同的接收场获得特征，而无需增加参数量和计算量。

在获得不同比例的特征图Q_k之后，使用空间关注机制从每个特征中选择重要区域并自动对其进行增强；这种空间注意力策略有助于自动从特征图中选择最有价值的区域。上述空间注意的操作过程可以使用公式表示为

其中，

表示逐元素乘法，σ表示sigmoid函数。如果有H≠H′或W≠W′或D≠D′，则在AHMS模块中的卷积运算过程中将卷积步长设置为2，实现向下采样特征图；否则，将卷积步长设置为1。最后，将层次特征Y_k融合在一起，并将其与原始输入特征X结合起来，以获得最终的输出特征，使用公式表示为：

其中，相比于在特征融合过程中使用级联融合，使用对应像素点相加来完成特征融合可以减少更多的模型参数量和计算量。

在上述的实现过程中，通过使用注意力分层多尺度AHMS模块从输入图像中提取出多尺度特征和空间注意力特征，这些特征可以体现出多尺度信息和空间注意力信息，从而减少了注意力感知网络模型中的卷积核与特征图之间的联系，有效地减少了注意力感知网络模型中使用的网络参数量。

在步骤S120之后，执行步骤S130：使用注意力感知网络模型中的多个调制注意力网络对多尺度特征和空间注意力特征进行调制，获得多层调制特征。

请参见图4示出的本申请实施例提供的其中一种具体调制注意力网络的结构示意图；调制注意力(Modulated Attention，MA)网络，又被简称为MA网络，该MA模块使用高级语义信息作为先验信息来过滤低级空间信息，然后将其与高级语义信息合并；MA模块中的功能合并方法并不是直接加法和串联法，而是非线性的，MA模块可以通过学习比例参数和平移参数来完全实现上下文感知。上述MA模块选择非线性的原因在于，在对医学图像进行语义分割的临床实践中，当从图像中分割病理组织时，临床医生通常首先粗略地定位目标组织，然后在执行精确的标记和分割之前比较目标组织与周围组织之间的差异，MA模块的设计思路受到这个过程的启发，该MA模块使用高级语义信息作为先验信息来过滤低级空间信息，然后将其与高级语义信息合并，从而使得MA模块可以通过学习比例参数和平移参数来完全实现上下文感知。其中，调制特征包括：比例参数和平移参数，调制注意力网络包括：仿射变换层和上采样网络层；其中，仿射变换层可以包括：第一MA模块和第二MA模块，第一MA模块可以用于学习缩放比例参数，第二MA模块可以用于学习平移参数。

上述步骤S130的实施方式包括：使用上采样网络层对空间注意力特征进行上采样，获得同分辨率特征；使用仿射变换层对同分辨率特征和多尺度特征进行仿射变换，获得比例参数和平移参数；具体例如：假设给定空间特征

和语义特征

其中，C、H、W和D分别是输入特征图的通道数、高度、宽度和深度，

表示实数域；然后使用MA模块学习缩放比例参数和移位参数，并使用学习到的缩放比例参数和移位参数对空间特征进行仿射变换。在将空间特征和语义特征输入到MA模块之前，还可以通过卷积来调整通道数，语义特征也被上采样以获得与空间特征相同的分辨率。最后调制特征

可以自动增强与任务相关的信息并抑制无关的信息，使用公式可以表示为

其中，I'代表调制后的特征：

和

分别表示逐元素加法和逐元素乘法，α表示比例参数，β表示平移参数。

请参见图5示出的本申请实施例提供的比例参数和平移参数的计算流程示意图。在通道号和输入空间特征(Spatial Feature)和语义特征(Semantic Feature)的分辨率相同的情况下，先将空间特征和语义特征相加，然后执行一系列线性和非线性运算，从而获得比例参数(Scale Parameters)相应的权重图和平移参数(Shift Parameters)相应的权重图。获得比例的权重图比移位权重图需要多一个sigmoid操作，上述提取比例参数权重图的操作可以使用公式表示为α＝σ₂(σ₁(F^1×1×1(ψ(F^1×1×1(I)+F^1×1×1(G)))))；以及提取平移参数权重图的操作可以使用公式表示为β＝σ₁(F^1×1×1(ψ(F^1×1×1(I)+F^1×1×1(G))))；其中，F^1×1×1是卷积运算，卷积内核大小为1×1×1，ψ是上采样运算，σ₁是ReLu函数，σ₂是sigmoid函数。

在上述的实现过程中，通过在融合每层空间和语义特征之前使用调制注意力网络，该调制注意力网络可以获得结合细节信息和语义信息的上下文特征，并自动增强与任务有关的信息，抑制与任务无关的信息，从而有效避免了模型信息的混乱。

在步骤S130之后，执行步骤S140：使用注意力感知网络模型中的深度监督网络提取多层调制特征中的上采样特征，并对上采样特征和多层调制特征进行上采样和级联融合，获得融合特征。

上述步骤S140的实施方式例如：请参照图1，使用注意力感知网络模型中的深度监督网络对多层调制特征进行双线性插值(bilinear)、反卷积(deconvolution)和反池化(Unpooling)等等上采样操作，获得上采样特征，并对上采样特征和多层调制特征进行上采样和级联融合，获得融合特征；其中，此处的深度监督网络的作用是在网络训练过程中，最终的分割结果图由网络中的多个层特征图共同作用产生(常规神经网络只由最后一层的特征图产生分割结果)，这样可以减少模型对最后一层的重度依赖性，同时在反向传播过程中能够把分割结果直接传输到较早的网络层，使网络模型在早期能够学习到更具有判别力和稳健性的特征，同时也能解决部分梯度消失问题。

在对医学领域的脑肿瘤图像进行语义分割的场景中发现，使用注意力感知网络(EA-Net)模型可以使用AHMS模块有效地提取丰富的上下文信息(即多尺度特征和空间注意力特征)的同时，也可以有效地减少EA-Net模型的参数量和计算量：再将AHMS模块和MA模块结合使用，还可以通过增强脑肿瘤相关部位的信息，并抑制与脑肿瘤无关的部位的信息，来自动关注脑肿瘤相关区域。

在步骤S140之后，执行步骤S150：使用注意力感知网络模型中的解码器网络对融合特征进行语义分割，获得语义分割后的图像。

上述步骤S150的实施方式可以包括：使用分类器对融合特征中的每个像素点进行分类，获得多个分类后的像素点，并将多个分类后的像素点拼接成语义分割后的图像；其中，解码器网络包括分类器；可以理解的是，此处分类器是用于语义分割的，分类器是对图像中的每个像素点进行分类(如当前像素点属于背景还是脑肿瘤区域，属于哪个肿瘤区域)，最终的图像就是分割结果图；也就是说，解码器网络的作用是产生最终的分割结果图(即语义分割后的图像)，并逐层恢复图像的分辨率。

在上述的实现过程中，通过使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征，有效地利用了图像中的多尺度信息，并让模型更加关注多尺度信息中的重要像素这些重要的像素就是可能存在类间歧义的像素或者重要的小区域中的像素，从而克服了存在类间歧义和小区域难以被检测分割等困难，提高了对实际采集的图像进行语义分割的准确率不高。

在使用注意力感知网络模型之前，还需要对注意力感知网络模型进行训练，具体的训练过程可以包括：

步骤S210：获得多个样本图像和多个样本标签，样本标签是对样本图像进行语义分割后获得的。

上述步骤S210的实施方式例如：上述的样本图像和样本标签可以分开获取，具体例如：人工的搜集样本图像，并人工地识别样本图像的样本标签；当然，也可以将样本图像和样本标签打包为训练数据集一起获取，这里以训练数据集一起获取为例进行说明；此处的训练数据集可以采用公开的脑肿瘤分割数据集BraTS2018中的训练数据集，该脑肿瘤分割数据集BraTS2018包含两个部分：训练数据集和测试数据集；其中，可以使用训练数据集来训练EA-Net模型，使用测试数据集来对EA-Net模型的训练效果进行验证。

步骤S220：以多个样本图像为训练数据，以多个样本标签为训练标签，对注意力感知网络进行训练，获得训练后的注意力感知网络模型。

上述步骤S220的实施方式例如：以多个样本图像为训练数据，以多个样本标签为训练标签，对注意力感知网络进行训练，获得训练后的注意力感知网络模型；在训练的过程中，或者在训练获得注意力感知网络模型之后，可以使用医学成像分析中Dice相似系数(Dice similarity coefficient，DSC)和Hausdorff距离等评估指标来评估对医学图像进行语义分割的实际效果；在具体的实践过程中发现，使用Dice相似系数和Hausdorff距离这两个广泛使用的评估指标来评估脑肿瘤图像分割，可以提高对脑肿瘤图像语义分割进行评估的准确性。

可选地，在训练注意力感知网络模型之后，执行图像语义分割方法的电子设备还可以为终端设备提供图像语义分割服务；其中，提供图像语义分割服务的具体过程可以包括：

步骤S230：电子设备接收终端设备发送的医学图像。

上述步骤S230的实施方式例如：电子设备通过传输控制协议(TransmissionControl Protocol，TCP)或者用户数据报协议(User Datagram Protocol，UDP)接收终端设备发送的医学图像；其中，上述的待处理图像可以是医学图像，例如可以是使用磁共振成像获得的脑肿瘤图像。

步骤S240：电子设备使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征。

步骤S250：电子设备使用注意力感知网络模型中的多个调制注意力网络对多尺度特征和空间注意力特征进行调制，获得多层调制特征。

步骤S260：电子设备使用注意力感知网络模型中的深度监督网络提取多层调制特征中的上采样特征，并对上采样特征和多层调制特征进行上采样和级联融合，获得融合特征。

步骤S270：电子设备使用注意力感知网络模型中的解码器网络对融合特征进行语义分割，获得语义分割后的图像。

其中，该步骤S240至步骤S270的实施原理和实施方式与步骤S120至步骤S150的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S120至步骤S150的描述。

步骤S280：电子设备向终端设备发送语义分割图像，语义分割图像是对医学图像进行语义分割后获得的。

上述步骤S280的实施方式例如：电子设备通过超文本传输协议(Hyper TextTransfer Protocol，HTTP)或者超文本传输安全协议(Hyper Text Transfer ProtocolSecure，HTTPS)向终端设备发送语义分割图像，语义分割图像是对医学图像进行语义分割后获得的。

本申请实施例提供了一种图像语义分割装置，包括：

图像获得模块，用于获得待处理图像。

特征提取模块，用于使用注意力感知网络模型中的编码器网络提取待处理图像的多尺度特征和空间注意力特征。

特征调制模块，用于使用注意力感知网络模型中的多个调制注意力网络对多尺度特征和空间注意力特征进行调制，获得多层调制特征。

特征融合模块，用于使用注意力感知网络模型中的深度监督网络提取多层调制特征中的上采样特征，并对上采样特征和多层调制特征进行上采样和级联融合，获得融合特征。

语义分割模块，用于使用注意力感知网络模型中的解码器网络对融合特征进行语义分割，获得语义分割后的图像。

可选地，在本申请实施例中，编码器网络包括：分组卷积模块和注意力机制分层多尺度AHMS模块；特征提取模块，包括：

特征分组卷积模块，用于使用分组卷积模块对待处理图像进行分组卷积，获得分组卷积特征。

特征分别提取模块，用于使用AHMS模块从分组卷积特征中分别提取多尺度特征和空间注意力特征。

可选地，在本申请实施例中，多尺度特征包括：第一尺度特征和第二尺度特征；特征分别提取模块，包括：

特征逐点卷积模块，用于使用AHMS模块中的逐点卷积层从分组卷积特征中提取出第一尺度特征。

膨胀分组卷积模块，用于使用AHMS模块中的膨胀分组卷积层从第一尺度特征中提取出第二尺度特征。

权重激活运算模块，用于使用AHMS模块中的卷积层对应的激活函数对第二尺度特征进行运算，获得权重激活图。

特征加权融合模块，将权重激活图与分组卷积特征进行加权融合，获得空间注意力特征。

可选地，在本申请实施例中，调制特征包括：比例参数和平移参数，调制注意力网络包括：仿射变换层和上采样网络层；特征调制模块，包括：

分辨率上采样模块，用于使用上采样网络层对空间注意力特征进行上采样，获得同分辨率特征。

特征仿射变换模块，用于使用仿射变换层对同分辨率特征和多尺度特征进行仿射变换，获得比例参数和平移参数。

可选地，在本申请实施例中，解码器网络包括：分类器；语义分割模块，包括：

像素点分类模块，用于使用分类器对融合特征中的每个像素点进行分类，获得多个分类后的像素点。

像素点拼接模块，用于将多个分类后的像素点拼接成语义分割后的图像。

可选地，在本申请实施例中，图像语义分割装置，还包括：

图像标签获得模块，用于获得多个样本图像和多个样本标签，样本标签是对样本图像进行语义分割后获得的。

网络模型训练模块，用于以多个样本图像为训练数据，以多个样本标签为训练标签，对注意力感知网络进行训练，获得训练后的注意力感知网络模型。

可选地，在本申请实施例中，待处理图像为医学图像；图像语义分割装置，还包括：

医学图像接收模块，用于接收终端设备发送的医学图像。

分割图像发送模块，用于向终端设备发送语义分割图像，语义分割图像是对医学图像进行语义分割后获得的。

应理解的是，该装置与上述的图像语义分割方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

本申请实施例提供的一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-OnlyMemory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以使用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种图像语义分割方法，其特征在于，包括：

获得待处理图像；

使用注意力感知网络模型中的编码器网络提取所述待处理图像的多尺度特征和空间注意力特征；

使用所述注意力感知网络模型中的多个调制注意力网络对所述多尺度特征和所述空间注意力特征进行调制，获得多层调制特征；

使用所述注意力感知网络模型中的深度监督网络提取所述多层调制特征中的上采样特征，并对所述上采样特征和所述多层调制特征进行上采样和级联融合，获得融合特征；

使用所述注意力感知网络模型中的解码器网络对所述融合特征进行语义分割，获得语义分割后的图像。

2.根据权利要求1所述的方法，其特征在于，所述编码器网络包括：分组卷积模块和注意力机制分层多尺度AHMS模块；所述使用注意力感知网络模型中的编码器网络提取所述待处理图像的多尺度特征和空间注意力特征，包括：

使用所述分组卷积模块对所述待处理图像进行分组卷积，获得分组卷积特征；

使用所述AHMS模块从所述分组卷积特征中分别提取所述多尺度特征和所述空间注意力特征。

3.根据权利要求2所述的方法，其特征在于，所述多尺度特征包括：第一尺度特征和第二尺度特征；所述使用所述AHMS模块从所述分组卷积特征中分别提取所述多尺度特征和所述空间注意力特征，包括：

使用所述AHMS模块中的逐点卷积层从所述分组卷积特征中提取出所述第一尺度特征；

使用所述AHMS模块中的膨胀分组卷积层从所述第一尺度特征中提取出第二尺度特征；

使用所述AHMS模块中的卷积层对应的激活函数对所述第二尺度特征进行运算，获得权重激活图；

将所述权重激活图与所述分组卷积特征进行加权融合，获得所述空间注意力特征。

4.根据权利要求1所述的方法，其特征在于，所述调制特征包括：比例参数和平移参数，所述调制注意力网络包括：仿射变换层和上采样网络层；所述使用所述注意力感知网络模型中的多个调制注意力网络对所述多尺度特征和所述空间注意力特征进行调制，包括：

使用所述上采样网络层对所述空间注意力特征进行上采样，获得同分辨率特征；

使用所述仿射变换层对所述同分辨率特征和所述多尺度特征进行仿射变换，获得所述比例参数和所述平移参数。

5.根据权利要求1所述的方法，其特征在于，所述解码器网络包括：分类器；所述使用所述注意力感知网络模型中的解码器网络对所述融合特征进行语义分割，获得语义分割后的图像，包括：

使用所述分类器对所述融合特征中的每个像素点进行分类，获得多个分类后的像素点；

将所述多个分类后的像素点拼接成所述语义分割后的图像。

6.根据权利要求1-5任一所述的方法，其特征在于，在所述使用注意力感知网络模型中的编码器网络提取所述待处理图像的多尺度特征和空间注意力特征之前，还包括：

获得多个样本图像和多个样本标签，所述样本标签是对所述样本图像进行语义分割后获得的；

以所述多个样本图像为训练数据，以所述多个样本标签为训练标签，对注意力感知网络进行训练，获得训练后的所述注意力感知网络模型。

7.根据权利要求1-5任一所述的方法，其特征在于，所述待处理图像为医学图像；所述获得待处理图像，包括：

接收终端设备发送的所述医学图像；

在所述获得语义分割后的图像之后，包括：

向所述终端设备发送语义分割图像，所述语义分割图像是对所述医学图像进行语义分割后获得的。

8.一种图像语义分割装置，其特征在于，包括：

图像获得模块，用于获得待处理图像；

特征提取模块，用于使用注意力感知网络模型中的编码器网络提取所述待处理图像的多尺度特征和空间注意力特征；

特征调制模块，用于使用所述注意力感知网络模型中的多个调制注意力网络对所述多尺度特征和所述空间注意力特征进行调制，获得多层调制特征；

特征融合模块，用于使用所述注意力感知网络模型中的深度监督网络提取所述多层调制特征中的上采样特征，并对所述上采样特征和所述多层调制特征进行上采样和级联融合，获得融合特征；

语义分割模块，用于使用所述注意力感知网络模型中的解码器网络对所述融合特征进行语义分割，获得语义分割后的图像。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。