CN114648760A

CN114648760A - 图像分割方法、图像分割装置、电子设备和存储介质

Info

Publication number: CN114648760A
Application number: CN202210061207.4A
Authority: CN
Inventors: 车正平; 丁晓峰; 徐志远; 奉飞飞; 唐剑
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-06-21

Abstract

本发明涉及图像处理技术领域，提供一种图像分割方法、图像分割装置、电子设备和存储介质，该图像分割方法包括：对待分割图像进行特征提取，得到不同尺度的多个语义特征图，多个语义特征图按照尺度从高到低排序，将第一个语义特征图作为第一个分割语义；对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图，目标分割语义为上一尺度的语义特征图对应的分割语义；确定最后一个语义特征图对应的分割语义为图像分割结果。本发明的图像分割方法，可充分利用语义上下文，再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割，有助于提高分割准确性。

Description

图像分割方法、图像分割装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像分割方法、图像分割装置、电子设备和存储介质。

背景技术

图像分割是图像识别和计算机视觉任务中至关重要的预处理，被广泛应用于各个领域，包括物体识别、对象跟踪和图像分类等。

相关技术中，图像分割多关注局部特征的边界，对于特征之间的关联性考虑不多。为此，部分技术采用语义上下文来指导特定特征图的特征表示，但是这些技术忽略了语义上下文的全局表示，分割效果不够理想。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种图像分割方法，以提高分割结果的准确性。

本发明还提出一种图像分割装置。

本发明还提出一种电子设备。

本发明还提出一种非暂态计算机可读存储介质。

本发明还提出一种计算机程序产品。

根据本发明第一方面实施例的图像分割方法，包括：

对待分割图像进行特征提取，得到不同尺度的多个语义特征图，所述多个语义特征图按照尺度从高到低排序，且将第一个语义特征图作为第一个分割语义；

对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，所述当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图，所述目标分割语义为上一尺度的语义特征图对应的分割语义；

确定最后一个语义特征图对应的分割语义为图像分割结果。

根据本发明实施例的图像分割方法，通过提取多个尺度的语义特征图，可以充分利用语义上下文，再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割，有助于提高分割结果的准确性。

根据本发明的一个实施例，所述对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，包括：

对当前尺度的语义特征图进行语义嵌入，得到当前尺度的嵌入特征图；

通过目标分割语义对所述当前尺度的嵌入特征图进行注意力转换，得到当前尺度的语义表示特征；

基于所述当前尺度的语义表示特征，得到当前尺度的图像特征；

将所述当前尺度的图像特征与所述目标分割语义进行融合，得到当前分割语义。

根据本发明的一个实施例，所述对当前尺度的语义特征图进行语义嵌入，得到当前尺度的嵌入特征图，包括：

将当前尺度的语义特征图嵌入到记忆张量，得到当前尺度的嵌入特征图。

根据本发明的一个实施例，所述将当前尺度的语义特征图嵌入到记忆张量，得到当前尺度的嵌入特征图，包括：

从记忆张量中确定与当前尺度的语义特征图中目标第一特征相似度最大的目标记忆特征；

将所述目标第一特征嵌入到所述目标记忆特征，得到当前尺度的嵌入特征图中的目标嵌入特征。

根据本发明的一个实施例，所述通过目标分割语义对所述当前尺度的嵌入特征图进行注意力转换，得到当前尺度的语义表示特征，包括：

对目标分割语义进行softmax操作，得到概率图；

通过所述概率图对所述当前尺度的嵌入特征图进行注意力转换，得到当前尺度的语义表示特征。

根据本发明的一个实施例，所述基于所述当前尺度的语义表示特征，得到当前尺度的图像特征，包括：

将所述当前尺度的语义表示特征与所述当前尺度的语义特征图进行连接及特征提取，得到当前尺度的图像特征。

将当前尺度的语义特征图输入到图像分割模型的当前分割层，得到所述当前分割层输出的各分割语义。

根据本发明的一个实施例，所述图像分割模型的损失函数为交叉熵损失函数，且所述交叉熵损失函数用于表征各分割层的分割损失。

根据本发明第二方面实施例的图像分割装置，包括：

提取模块，用于对待分割图像进行特征提取，得到不同尺度的多个语义特征图，所述多个语义特征图按照尺度从高到低排序，且将第一个语义特征图作为第一个分割语义；

语义分割模块，用于对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，所述当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图，所述目标分割语义为上一尺度的语义特征图对应的分割语义；

确定模块，用于确定最后一个语义特征图对应的分割语义为图像分割结果。

根据本发明实施例的图像分割装置，通过提取多个尺度的语义特征图，可以充分利用语义上下文，再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割，有助于提高分割结果的准确性。

根据本发明第三方面实施例的电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述图像分割方法的步骤。

根据本发明第四方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像分割方法的步骤。

根据本发明第五方面实施例的计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像分割方法的步骤。

本发明实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

通过提取多个尺度的语义特征图，可以充分利用语义上下文，再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割，有助于提高分割结果的准确性。

进一步的，通过层间的注意力机制，使得模型在进行残差学习时能够关注特征的学习，进而能够进一步提高特征提取的准确性和可靠性。

更进一步的，通过对当前尺度的语义表示特征与当前尺度的语义特征图进行连接操作，这样重新得到的图像特征结合了原来的语义特征图以及经过语义嵌入和注意力结合得到的语义表示特征，可以关注到语义上下文之间的联系；

更进一步的，通过跨层迭代分割，在保证分割准确度的前提下，可减少分割层数，从而帮助精简网络，这样该方法可直接用于各种终端独立运行，不依赖于服务器的计算。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像分割方法的流程示意图之一；

图2是本发明实施例提供的图像分割方法的流程示意图之二；

图3是本发明实施例提供的图像分割方法的流程示意图之三；

图4是本发明实施例提供的图像分割方法的流程示意图之四；

图5是本发明实施例提供的图像分割方法的流程示意图之五；

图6是本发明实施例提供的图像分割方法的流程示意图之六；

图7是本发明实施例提供的图像分割装置的结构示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体连接；可以通过无线或有线的电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

在本发明实施例中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合图1-图6描述本发明实施例的图像分割方法。

如图1所示，本发明实施例的图像分割方法包括步骤110-步骤130。

步骤110、对待分割图像进行特征提取，得到不同尺度的多个语义特征图，多个语义特征图按照尺度从高到低排序，且将第一个语义特征图作为第一个分割语义；

在该步骤中，通过特征提取得到的多个语义特征图的分辨率相同。

如图3所示，该步骤可以包括：对待分割图像进行上下文语义捕捉，得到多个第一语义特征(Res-1、Res-2、Res-3和Res-4)，各第一语义特征的维度相同；基于上一层的第二语义特征，对当前层第一语义特征进行解码，得到当前层第二语义特征(F²、F³和F⁴)；对当前层第二语义特征进行特征提取，得到当前层的语义特征图(X¹、X²、X³和X⁴)；其中，最高层第二语义特征F¹基于最高层第一语义特征Res-4解码得到。

该图像分割方法可以通过图像分割模型来实现，对应地，步骤110可以通过图像分割模型的特征提取网络来实现，特征提取网络包括多个尺度下的特征提取层，此处每个尺度分别对应一个特征提取层。

此处，不同尺度下采样区域的特征，能够体现出待分割图像在不同尺度下的信息。尺度越大/高(比如语义特征图X¹)，则对应的特征越能够反映对待分割图像整体信息的描述，从而捕获语义上下文信息；尺度越小/低(比如语义特征图X⁴)，则对应的特征越能够反映对待分割图像细节信息的描述，语义特征图提供局部文本细节。

在实际的执行中，该步骤可以包括：将待分割图像输入至图像分割模型的多个尺度下的特征提取层，得到多个语义特征图，多个语义特征图的尺度不同。

特征提取网络可以包括带有ResNet主干的编码器-解码器架构，该编码器-解码器架构用于捕获多尺度特征信息，该编码器-解码器架构可以通过空洞卷积实现。

如图3所示，将待分割图像输入至编码层(backbone)，得到多个第一语义特征(Res-1、Res-2、Res-3和Res-4)，对第一语义特征(Res-1、Res-2、Res-3和Res-4)进行解码，得到第二语义特征(F¹、F²、F³和F⁴)；对第二语义特征(F¹、F²、F³和F⁴)进行特征提取，得到不同尺度的多个语义特征图(X¹、X²、X³和X⁴)。

语义特征图可以表征为三维矩阵HW×D，其中H表示高，W表示宽，D表示通道数。该特征提取网络可以通过空洞卷积实现。

本发明实施例的图像分割方法需要通过层间的迭代来实现分割，对于第一个语义特征图X¹，其并不存在上一层，因此，如图3所示，直接将第一个语义特征图X¹作为第一个分割语义L¹。

步骤120、对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义。

可以理解的是，该步骤中，每次进行语义分割时，通过语义嵌入与注意力转换，可以得到语义上下文的全局语义表示。

相关技术中，一般通过类中心特征等简单的聚合方式进行特征表示，这会使不同的特征混淆，提供不合理的特征信息并误导特征表示。

本发明中，通过嵌入的特征与注意力机制结合起来进行聚合，来生成分割语义，可以通过全局语义表示建立特征信息和语义上下文之间的联系，使得分割更准确。

如图3所示，将第一个语义特征图X¹作为第一个分割语义L¹。

步骤120中的当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图，目标分割语义为上一尺度的语义特征图对应的分割语义。

从第二个语义特征图X²开始，将该语义特征图X²与目标分割语义L¹进行语义嵌入及注意力转换，得到当前分割语义L²。

将语义特征图X³与目标分割语义L²进行语义嵌入及注意力转换，得到当前分割语义L³。

将语义特征图X⁴与目标分割语义L³进行语义嵌入及注意力转换，得到当前分割语义L⁴。

如果有更多层，继续按此规则进行层间的语义嵌入及注意力转换。

该步骤提供了一种对分割语义进行粗到精迭代分割的方式，最终能够迭代精炼语义分割结果。

步骤130、确定最后一个语义特征图对应的分割语义为图像分割结果。

可以理解的是，在执行步骤110以及执行多次步骤120后，提供的了从粗到细的多个分割语义，以图3为例，得到了分割语义L¹、L²、L³和L⁴，其中分割语义L⁴为最后一个语义特征图对应的分割语义，将分割语义L⁴作为图像分割结果即可。

本发明实施例提供的图像分割方法，通过提取多个尺度的语义特征图，可以充分利用语义上下文，再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割，有助于提高分割结果的准确性。

另外，通过跨层迭代分割，在保证分割准确度的前提下，可减少分割层数，从而帮助精简网络，这样该方法可直接用于各种终端独立运行，不依赖于服务器的计算。

比如在加载在冰箱中，通过对食物图像进行分割，在实现食物的腐败识别；或者加载在抽烟机上，通过对食物图像进行分割，在实现食物的熟度识别等。

在一些实施例中，步骤120、对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，可以包括：步骤121、步骤122、步骤123和步骤124。

步骤121、对当前尺度的语义特征图进行语义嵌入，得到当前尺度的嵌入特征图；

需要说明的是，上述当前尺度的语义特征图不包括最高尺度的语义特征图，即不包括图3中的X¹。

在对语义特征图进行嵌入编码的过程，可记录各个分类的特征表示，并通过相似度计算区分各个分类对应的嵌入特征。

如图5所示，通过对语义特征图X进行语义嵌入，可以得到嵌入特征图Y_c。

语义嵌入不改变语义特征图的维度，如图5所示，语义特征图X和嵌入特征图Y_c可以均表征为三维矩阵HW×D，其中H表示高，W表示宽，D表示通道数。

在一些实施例中，步骤121、对当前尺度的语义特征图进行语义嵌入，得到当前尺度的嵌入特征图，可以包括：将当前尺度的语义特征图X嵌入到记忆张量M，得到当前尺度的嵌入特征图Y_c。

记忆张量M可以记录语义上下文的全局表示，记忆张量M＝[M₁,M₂,…,M_C]。记忆张量M中的每个元素Mi＝[m_i1,m_i2,…,m_iN]分别记录了类别i的语义表示，i＝1,2,…,c，m_ij∈R^D为单个记忆特征，j＝1,2,…,N，N为记忆容量，D为通道维度。

如图5所示，对于每个类别c，给定语义特征图X中的单个输入第一特征x∈R^D，语义嵌入过程为将输入第一特征x嵌入到语义表示中，并使用记忆特征Mc构造嵌入特征y∈R^D：

其中，m_cN∈R^D是总和为1的非负项的权重向量，w_cn表示输入特征x对特征M_cn的嵌入权重。

在一些实施例中，上述步骤将当前尺度的语义特征图X嵌入到记忆张量M，得到当前尺度的嵌入特征图Y_c，包括：

从记忆张量M中确定与当前尺度的语义特征图X中目标第一特征x相似度最大的目标记忆特征Mc；将目标第一特征x嵌入到目标记忆特征Mc，得到当前尺度的嵌入特征图Y_c中的目标嵌入特征y。

对语义特征图X中每个第一特征x均执行上述步骤，即可得到嵌入特征图Y_c。

上述方式，通过对输入的第一特征x进行重构，得到由记忆特征Mc表征的嵌入特征y。在实际执行中，选择与输入的第一特征x最相似的记忆特征来构建嵌入特征y。

具体来说，权重向量w_c中的记忆相似性为

其中，m_cn'参考上述m_ij的定义，为类别c的第n'个记忆特征，d(,)是相似性度量：

d(x,m_cn)＝x^Tm_cn，

可以理解的是，上述语义嵌入过程通过提取与输入的第一特征x最相似的记忆特征Mc来构造对应的嵌入特征y。对于同一类别的不同特征，由于其最相似的记忆特征是不同的，这样通过相似度计算可得到不同的嵌入特征。此外，多个记忆特征可以表示具有复杂分布的类别特征。假设一个类别有多个特征中心，语义嵌入过程可以记录它们的特征表示，并通过相似度计算区分它们对应的嵌入特征。

如图4和图5所示，在实际执行过程中，可以通过语义嵌入模块SE(SemanticEmbedding Block)完成上述语义嵌入的处理。

基于单个第一特征x的语义嵌入过程，输入语义特征图X＝[x₁,x₂,…,x_HW]，其中x_i∈R^D是像素i的输入特征，i＝1,2,…,HW。HW是特征图的大小(高度乘以宽度)。

如图5所示，对于每个类别c，我们将语义嵌入过程应用于每个第一特征x_i并获得特征映射Y_c＝[y1,y2,…,y_HW]，y_i∈R^D是与x_i对应的嵌入特征，i＝1,2,…,HW。HW是特征图的大小(高度乘以宽度)。通过计算所有类别之间的嵌入特征，我们得到嵌入特征图Y＝[Y₁,Y₂,…,Y_C]。

步骤122、通过目标分割语义对当前尺度的嵌入特征图进行注意力转换，得到当前尺度的语义表示特征；

如图3、图4和图6所示，通过分割语义L¹对嵌入特征图Y₂进行注意力转换，得到语义表示特征Z₂；通过分割语义L²对嵌入特征图Y₃进行注意力转换，得到语义表示特征Z₃；通过分割语义L³对嵌入特征图Y₄进行注意力转换，得到语义表示特征Z₄。

如图4和图6所示，在实际执行过程中，可以通过注意力模块SA(SemanticAttention Block)完成上述注意力转换的处理。

通过层间的注意力机制，使得模型在进行残差学习时能够关注特征的学习，进而能够进一步提高特征提取的准确性和可靠性。

在一些实施例中，如图6所示，步骤122、通过目标分割语义对当前尺度的嵌入特征图进行注意力转换，得到当前尺度的语义表示特征，包括：

对目标分割语义L进行softmax操作，得到概率图P；

通过概率图P对当前尺度的嵌入特征图Y进行注意力转换，得到当前尺度的语义表示特征Z。

在实际执行中，将softmax操作应用于分割语义L并获得概率图P，P＝[p₁,p₂,…,p_HW]，p_i∈R^C为像素i的概率向量，i＝1,2,…,HW。HW是特征图的大小(高度乘以宽度)。将概率图P作为注意力图来聚合嵌入特征Y并得到语义表示特征Z＝[z₁,z₂,…,z_HW]，z_i∈R^D为像素i的语义表示特征，i＝1,2,…,HW。HW是特征图的大小(高度乘以宽度)。

对于每个像素i，语义的注意力转换通过如下公式实现：

步骤123、基于当前尺度的语义表示特征，得到当前尺度的图像特征；

将当前尺度的语义表示特征Z与当前尺度的语义特征图X进行连接及特征提取，得到当前尺度的图像特征。

如图4所示，对当前尺度的语义表示特征与当前尺度的语义特征图X进行连接操作(Concat)，再对连接得到的图进行特征提取(Conv)，得到当前尺度的图像特征。

这样重新得到的图像特征结合了原来的语义特征图X以及经过语义嵌入和注意力结合得到的语义表示特征，可以关注到语义上下文之间的联系。

如图3和图4所示，上述步骤121-步骤123，可以通过语义表示模块SR(SemanticRepresentation Module)来执行。如图4所示，注意力模块SA语义表示模块SR结合了语义嵌入模块SE和注意力模块SA，语义表示模块SR通过全局语义表示建立了特征信息和语义上下文之间的联系。对于每个单个特征x，通过根据语义上下文将特征嵌入到语义记忆中来得到重建的语义表示特征Z。

语义表示模块SR输出的特征为当前尺度的图像特征。

换言之，上述方法通过语义上下文和特征信息分别选择相应的记忆特征和嵌入权重。因此，本发明的语义表示模块SR可自适应地学习所有类别的全局表示。

步骤124、将当前尺度的图像特征与目标分割语义进行融合，得到当前分割语义。

如图3所示，当前层的语义表示模块SR输出的图像特征与上一尺度的分割语义L^i-1进行融合，可得到当前分割语义Lⁱ。

上述图像分割方法，通过语义嵌入和注意力，以及跨层间的多次融合，可以充分利用语义上下文，进行粗到精的迭代分割，分割结果的准确性高。

在一些实施例中，步骤120、对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，包括：将当前尺度的语义特征图输入到图像分割模型的当前分割层，得到当前分割层输出的各分割语义。

换言之，该步骤可以通过神经网络来实现，其中步骤110可以通过特征提取网络实现，该特征提取网络可以包括带有ResNet主干的编码器-解码器架构，步骤121-步骤124可以通过多个分割层实现，每个分割层可以包括上述语义表示模块SR。

该图像分割模型可以为以样本输入图像为样本，以与样本分割图像对应的样本分割结果为样本标签训练得到。实际训练过程，特征提取网络和分割层可以联合训练或独立训练，比如特征提取网络可以为预训练的网络。

图像分割模型的损失函数为交叉熵损失函数，且交叉熵损失函数用于表征各分割层的分割损失。

图像分割模型包括特征提取网络ResNet和语义表示分割网络SRRNet(SemanticRep-resentation Refinement Network)，特征提取网络ResNet的输入为待分割图像，输出为不同尺度的多个语义特征图(X¹、X²、X³和X⁴)，语义表示分割网络SRRNet的输入为语义特征图(X¹、X²、X³和X⁴)，输出为分割结果。

需要说明的是，本发明实施例的图像分割方法采用多尺度的特征信息，通过高级特征捕获全局语义上下文，低级特征提供局部文本细节，再通过跨层迭代细化分割，且在分割时，将语义表示模块SR应用于所有层，以进一步利用语义上下文。

在训练时，通过多尺度损失来进行深度监督，确保所有

其中4表示图3所示的模型中具有4层，最终损失函数为

其中，如图3所示GT为ground truth，表示样本标签，α_s为尺度系数，用于平衡不同尺度的分割损失，比如依据经验设置α_s，比如可以随尺度s设置α_s＝2^s-4。

发明人采用如下两个基准数据集上对上述方法进行了试验评估：PASCAL VOC2012和Cityscapes。

PASCAL VOC 2012数据集有20个对象类和一个背景类，包含10582个增强图像、1464个训练图像、1449个验证图像和1456个测试图像。Cityscapes数据集有19个语义类，分别提供2975、500和1525个精细注释图像用于训练、验证和测试。

使用预训练的ResNet主干构建编码器-解码器基线模型ASPP模块作为特征提取网络。所有模型都采用了最后两个ResNet模块的扩张策略。SRRNet的内存容量设置为N＝8。在训练阶段，采用poly学习率调度

N_iter是当前的迭代次数，N_total是总迭代次数，γ₀为基础学习率，且采用具有动量0.9和权重衰减系数0.0001的随机梯度下降(SGD)优化器。

在训练过程中，采用随机水平翻转和随机尺度策略，尺度比从0.5到2.0。对于PASCAL VOC 2012数据集，训练batch大小为16，基本学习率为0.001，训练epoch为80，训练大小为480X 480。在测试阶段，水平翻转和多尺度输入策略被用来促进分割结果，比例设置为{0.5、0.75、1.0、1.25、1.5、1.75}。

对于Cityscapes数据集，训练batch大小为8，基本学习率为0.001，训练epoch为240，训练大小为768X 768。在测试阶段，水平翻转和多尺度输入策略被用来促进分割结果。比例设置为{0.75、1.0、1.25、1.5、1.75、2.0}。另外还可以采用训练epoch为5的预热策略、在线硬示例挖掘(OHEM)方法和最后一个ResNet模块的大小为(4,8,16)的多网格方法。

通过试验发现，本发明的语义表示分割网络SRRNet在PASCAL VOC 2012上实现了优于其他方法的性能(85.4％)。在这些对比方法中，EncNet使用编码层捕获全局场景的编码语义，而DFN使用边界网络捕获语义信息，并通过语义边界监督指导特征学习。此外，如表二所示，SRRNet在Cityscapes上也实现了82.3％的卓越性能，大大优于以前的方法。此外，带有ResNet-50主干的SRRNet甚至优于带有ResNet-100的一些基于语义上下文的方法，包括DFN和CPNet，进一步验证了本发明模型的有效性。

表一PASCAL VOC 2012数据集定量评估

表二Cityscapes PASCAL VOC 2012数据集定量评估

下面对本发明实施例提供的图像分割装置进行描述，下文描述的图像分割装置与上文描述的图像分割方法可相互对应参照。

如图7所示，本发明实施例的图像分割装置，包括：提取模块710、语义分割模块720和确定模块730。

提取模块710，用于对待分割图像进行特征提取，得到不同尺度的多个语义特征图，多个语义特征图按照尺度从高到低排序，且将第一个语义特征图作为第一个分割语义；

语义分割模块720，用于对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图，目标分割语义为上一尺度的语义特征图对应的分割语义；

确定模块730，用于确定最后一个语义特征图对应的分割语义为图像分割结果。

本发明实施例提供的图像分割装置，通过提取多个尺度的语义特征图，可以充分利用语义上下文，再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割，有助于提高分割结果的准确性。

在一些实施例中，语义分割模块720，还用于对当前尺度的语义特征图进行语义嵌入，得到当前尺度的嵌入特征图；通过目标分割语义对当前尺度的嵌入特征图进行注意力转换，得到当前尺度的语义表示特征；基于当前尺度的语义表示特征，得到当前尺度的图像特征；将当前尺度的图像特征与目标分割语义进行融合，得到当前分割语义。

在一些实施例中，语义分割模块720，还用于将当前尺度的语义特征图嵌入到记忆张量，得到当前尺度的嵌入特征图。

在一些实施例中，语义分割模块720，还用于从记忆张量中确定与当前尺度的语义特征图中目标第一特征相似度最大的目标记忆特征；将目标第一特征嵌入到目标记忆特征，得到当前尺度的嵌入特征图中的目标嵌入特征。

在一些实施例中，语义分割模块720，还用于对目标分割语义进行softmax操作，得到概率图；通过概率图对当前尺度的嵌入特征图进行注意力转换，得到当前尺度的语义表示特征。

在一些实施例中，语义分割模块720，还用于将当前尺度的语义表示特征与当前尺度的语义特征图进行连接，在将连接后的图进行特征提取，得到当前尺度的图像特征。

在一些实施例中，语义分割模块720，还用于将当前尺度的语义特征图输入到图像分割模型的当前分割层，得到当前分割层输出的各分割语义。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行图像分割方法，该方法包括：对待分割图像进行特征提取，得到不同尺度的多个语义特征图，多个语义特征图按照尺度从高到低排序，且将第一个语义特征图作为第一个分割语义；对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图，目标分割语义为上一尺度的语义特征图对应的分割语义；确定最后一个语义特征图对应的分割语义为图像分割结果。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法实施例所提供的图像分割方法，该方法包括：对待分割图像进行特征提取，得到不同尺度的多个语义特征图，多个语义特征图按照尺度从高到低排序，且将第一个语义特征图作为第一个分割语义；对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图，目标分割语义为上一尺度的语义特征图对应的分割语义；确定最后一个语义特征图对应的分割语义为图像分割结果。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的图像分割方法，该方法包括：对待分割图像进行特征提取，得到不同尺度的多个语义特征图，多个语义特征图按照尺度从高到低排序，且将第一个语义特征图作为第一个分割语义；对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图，目标分割语义为上一尺度的语义特征图对应的分割语义；确定最后一个语义特征图对应的分割语义为图像分割结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围中。

Claims

1.一种图像分割方法，其特征在于，包括：

对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，所述当前尺度的语义特征图包括除所述第一个语义特征图之外的其他语义特征图，所述目标分割语义为上一尺度的语义特征图对应的分割语义；

确定最后一个语义特征图对应的分割语义为图像分割结果。

2.根据权利要求1所述的图像分割方法，其特征在于，所述对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，包括：

3.根据权利要求2所述的图像分割方法，其特征在于，所述对当前尺度的语义特征图进行语义嵌入，得到当前尺度的嵌入特征图，包括：

4.根据权利要求3所述的图像分割方法，其特征在于，所述将当前尺度的语义特征图嵌入到记忆张量，得到当前尺度的嵌入特征图，包括：

5.根据权利要求2所述的图像分割方法，其特征在于，所述通过目标分割语义对所述当前尺度的嵌入特征图进行注意力转换，得到当前尺度的语义表示特征，包括：

对目标分割语义进行softmax操作，得到概率图；

6.根据权利要求2所述的图像分割方法，其特征在于，所述基于所述当前尺度的语义表示特征，得到当前尺度的图像特征，包括：

7.根据权利要求1所述的图像分割方法，其特征在于，所述对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，包括：

8.根据权利要求7所述的图像分割方法，其特征在于，所述图像分割模型的损失函数为交叉熵损失函数，且所述交叉熵损失函数用于表征各分割层的分割损失。

9.一种图像分割装置，其特征在于，包括：

语义分割模块，用于对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换，得到当前分割语义，所述当前尺度的语义特征图包括除所述第一个语义特征图之外的其他语义特征图，所述目标分割语义为上一尺度的语义特征图对应的分割语义；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的图像分割方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述的图像分割方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的图像分割方法的步骤。