CN115620013B

CN115620013B - 语义分割方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN115620013B
Application number: CN202211600812.0A
Authority: CN
Inventors: 田倬韬; 易振彧; 刘枢; 吕江波; 沈小勇
Original assignee: Shenzhen Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-03-14
Anticipated expiration: 2042-12-14
Also published as: CN115620013A

Abstract

本申请涉及一种语义分割方法、装置、计算机设备及存储介质。方法包括：确定首个语义增强层为当前层，通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征并确定当前层的注意力数据；根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据；通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征并确定下一语义增强层的注意力数据；将下一语义增强层作为当前层，返回根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据的步骤循环执行，直至得到最后一语义增强层的目标语义特征；根据目标语义特征和编码特征对目标图像进行语义分割。采用本方法能够提高语义分割的准确性。

Description

语义分割方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种语义分割方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着图像处理技术的发展，出现了语义分割模型。语义分割模型包括编码器和解码器，编码器从输入图像当中提取低级特征信息，解码器对低级特征信息进行加工得到与图像分割相关的高级特征信息。

传统方法中，语义分割模型的解码器简单地对低级特征信息进行上采样处理，无法充分地捕捉和利用低级特征信息中包含的有效信息，从而导致语义分割模型的预测准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种语义分割方法、装置、计算机设备、计算机可读存储介质以及计算机程序产品，能够提高图像语义分割的准确性。

第一方面，本申请提供了一种语义分割方法，包括：

确定首个语义增强层为当前层，通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征，以及确定当前层的注意力数据；

根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据；

通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征，以及确定下一语义增强层的注意力数据；

将下一语义增强层作为当前层，返回根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据的步骤循环执行，直至得到最后一语义增强层的目标语义特征；

根据目标语义特征和编码特征，对目标图像进行语义分割，得到目标语义分割结果。

在一些实施例中，通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征之前，方法还包括：

获取编码器针对目标图像进行特征编码得到的初始编码特征；

根据预设通道比例和初始编码特征的特征通道数量，对初始编码特征进行降维处理，得到目标图像的编码特征。

在一些实施例中，每一语义增强层包括多个语义增强单元；当前层的语义特征包括当前层中的各语义增强单元输出的增强特征；通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征，包括：

将目标图像的编码特征输入至当前层中，通过当前层中的多个语义增强单元进行特征增强，得到当前层的语义特征；

其中，当前层中的上一语义增强单元的输出作为下一语义增强单元的输入。

在一些实施例中，确定当前层的注意力数据，包括：

根据当前层中最后一语义增强单元输出的增强特征进行分类处理，得到分类结果；

根据分类结果，确定当前层的注意力数据。

在一些实施例中，当前层的注意力数据包括当前层中的每一语义增强单元输出的增强特征对应的权重；当前层对应的语义遮罩数据包括当前层中的各语义增强单元对应的子语义遮罩数据；

根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据，包括：

根据当前层中的每一语义增强单元输出的增强特征对应的权重，对当前层中的每一语义增强单元输出的增强特征进行加权处理，得到每一语义增强单元对应的加权语义特征；

对每一语义增强单元对应的加权语义特征进行非线性映射处理，得到当前层中的各语义增强单元对应的子语义遮罩数据。

在一些实施例中，每个语义增强层具有多个语义增强单元；相邻语义增强层的语义增强单元之间具有对应关系；当前层对应的语义遮罩数据包括当前层中的各语义增强单元对应的子语义遮罩数据；

通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征，包括：

将编码特征和当前层的首个语义增强单元对应的子语义遮罩数据作为下一语义增强层的首个语义增强单元的输入数据，将下一语义增强层的首个语义增强单元作为当前单元，执行通过当前单元对输入数据进行特征增强处理，得到当前单元输出的增强特征；

将当前单元输出的增强特征和关联的子语义遮罩数据作为下一语义增强层中的下一语义增强单元的输入数据，并将下一语义增强单元作为新的当前单元，返回通过当前单元对输入数据进行特征增强处理的步骤循环执行，直至得到下一语义增强层的最后一语义增强单元输出的增强特征；

其中，关联的子语义遮罩数据是下一语义增强单元在当前层中对应的语义增强单元的子语义遮罩数据。

在一些实施例中，根据目标语义特征和编码特征，对目标图像进行语义分割，得到目标语义分割结果，包括：

对目标语义特征和编码特征进行上采样处理，得到上采样后的语义特征和上采样后的编码特征；

对上采样后的编码特征进行特征增强处理，得到增强后的编码特征；

对上采样后的语义特征进行非线性映射处理，得到映射后的语义特征；

根据增强后的编码特征和映射后的语义特征进行分类处理，得到目标语义分割结果。

第二方面，本申请还提供了一种语义分割装置，包括：

特征解码模块，用于确定首个语义增强层为当前层，通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征，以及确定当前层的注意力数据；根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据；通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征，以及确定下一语义增强层的注意力数据；将下一语义增强层作为当前层，返回根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据的步骤循环执行，直至得到最后一语义增强层的目标语义特征；

语义分割模块，用于根据目标语义特征和编码特征，对目标图像进行语义分割，得到目标语义分割结果。

第三方面，本申请还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现本申请方法各实施例中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本申请方法各实施例中的步骤。

第五方面，本申请还提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现本申请方法各实施例中的步骤。

上述语义分割方法、装置、计算机设备、存储介质以及计算机程序产品，确定首个语义增强层为当前层，通过当前层对编码特征进行特征提取得到相应的语义特征，根据当前层的语义特征和注意力数据得到语义遮罩数据，语义遮罩数据相较于编码特征包括更加丰富的语义信息以及更需被关注的与语义分割相关的特征。然后通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到相应的语义特征，将下一语义增强层作为当前层，返回根据当前层的语义特征和注意力数据得到语义遮罩数据的步骤循环执行，每一语义增强层的语义特征不断累积了之前语义增强层提取的语义特征以及之前语义增强层指示的需要关注的与语义分割相关的特征，后续得到的最后一语义增强层的目标语义特征充分全面地涵盖了编码特征中的有效信息，最后根据目标语义特征和编码特征能够准确地对目标图像进行语义分割。

附图说明

图1为本申请实施例提供的一种语义分割方法的应用环境图；

图2为本申请实施例提供的一种语义分割方法的流程示意图；

图3为本申请实施例提供的一种语义分割模型的结构示意图；

图4为本申请实施例提供的一种得到当前层对应的语义遮罩数据的流程示意图；

图5为本申请实施例提供的一种得到下一语义增强层的语义特征的流程示意图；

图6为本申请实施例提供的一种解码器的架构图；

图7为本申请实施例提供的一种语义分割装置的结构框图；

图8为本申请实施例提供的一种计算机设备的内部结构图；

图9为本申请实施例提供的一种计算机可读存储介质的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语义分割方法，可以应用于如图1所示的应用环境中。其中，计算机设备102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104可以确定首个语义增强层为当前层，通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征，以及确定当前层的注意力数据；服务器104可以根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据；服务器104可以通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征，以及确定下一语义增强层的注意力数据；服务器104可以将下一语义增强层作为当前层，返回根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据的步骤循环执行，直至得到最后一语义增强层的目标语义特征；服务器104可以根据目标语义特征和编码特征，对目标图像进行语义分割，得到目标语义分割结果。可以理解，服务器104可以将目标语义分割结果发送至计算机设备102，计算机设备102可以展示目标语义分割结果。其中，计算机设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备以及便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中，如图2所示，提供了一种语义分割方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于计算机设备，还可以应用于包括计算机设备和服务器的系统，并通过计算机设备和服务器的交互实现。本实施例中，该方法包括以下步骤：

S202，确定首个语义增强层为当前层，通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征，以及确定当前层的注意力数据。

其中，语义增强层用于从编码特征中进一步地提取出更丰富的语义特征。编码特征是在语义分割的编码阶段从目标图像中提取出的粗糙特征。可以理解，目标图像经过编码阶段可以提取出颜色、纹理、边缘等低级特征，这些低级特征相较于语义增强层提取出的语义特征更加粗糙。目标图像是待进行语义分割的图像。每一语义增强层的注意力数据用于指示相应语义增强层的语义特征中更需被关注的、与语义分割相关的特征。语义特征用于指示目标图像中的像素点在意义上所具有的特点，即，像素点所表征的语义。可以理解，语义特征可以用于像素点的分类以实现对图像的语义分割。实际上，图像的语义分割就是图像的像素点分类。当前层的语义特征是当前层提取出的语义特征。

示例性地，服务器可以获取编码器从目标图像中提取出的编码特征，并将解码器中的首个语义增强层确定为当前层。服务器可以通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征，并根据当前层的语义特征进行分类处理确定当前层的注意力数据。需要说明的是，本实施例提供的解码器对编码器不作限制，本实施例提供的解码器可以附加至任意编码器构建语义分割模型。可以理解，将任意编码器从目标图像提取的编码特征输入至本实施例提供的解码器都能够实现对目标图像的语义分割。

在一些实施例中，如图3所示提供了语义分割模型的结构示意图。目标图像经过编码器进行特征编码之后，通过解码器对编码特征进行特征增强得到语义特征，后续可以通过解码器根据语义特征和编码特征对目标图像进行语义分割，得到目标语义分割结果。可以理解，本实施例对编码器不作限定，本申请提供的解码器可以附加在任何一个编码器上，也可以作为特征增强器附加在语义分割模型中，即可完成性能增强。相较于传统方法中均需要特定的多层级、多网络结构来完成性能提升，本申请提供的解码器对于编码器具有高度普适性，能够被应用于不同基础模型上进行性能提升。

在一些实施例中，服务器可以将语义增强层的语义特征确定为分类器的输入以通过分类器进行分类处理，得到分类器输出的语义增强层的注意力数据。

在一些实施例中，服务器可以获取编码器针对目标图像进行特征编码得到的初始编码特征，并通过对初始编码特征进行降维处理，得到目标图像的编码特征。

在一些实施例中，服务器可以通过减少初始编码特征的特征通道数量，对初始编码特征进行降维处理。比如，服务器可以减少一定比例的特征通道数量，或者将特征通道数量减少至指定数量。需要说明的是，本实施例中对减少初始编码特征的特征通道数量的具体方式不作限定。

S204，根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据。

其中，当前层对应的语义遮罩数据包括当前层提取出的、与目标图像的语义分割相关的语义特征。

示例性地，服务器可以根据当前层的注意力数据对当前层的语义特征进行加权处理，得到当前层对应的语义遮罩数据。可以理解，当前层的注意力数据包括当前层的语义特征的权重。当前层的注意力数据相当于当前层语义特征的注意力遮罩，综合注意力数据和语义特征得到的语义遮罩数据能够指示下一语义增强层更关注当前层提取的语义特征中与语义分割相关的部分。

S206，通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征，以及确定下一语义增强层的注意力数据。

示例性地，服务器可以根据下一语义增强层的语义特征进行分类处理确定下一语义增强层的注意力数据。

在一些实施例中，服务器可以通过下一语义增强层将语义遮罩数据叠加编码特征后进行特征提取得到下一语义增强层的语义特征。

S208，将下一语义增强层作为当前层，返回根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据的步骤循环执行，直至得到最后一语义增强层的目标语义特征。

示例性地，解码器包括多语义增强层。服务器可以将下一语义增强层确定为当前层，不断地执行根据当前层的语义特征和注意力数据，得到当前层对应的语义遮罩数据以及后续步骤，直至通过解码器的最后一语义增强层进行特征提取得到的目标语义特征。

S210，根据目标语义特征和编码特征，对目标图像进行语义分割，得到目标语义分割结果。

示例性地，服务器可以根据目标语义特征和编码特征进行分类处理，得到目标图像的目标语义分割结果。

在一些实施例中，服务器可以将目标语义特征和编码特征确定为分类器的输入，以通过分类器进行分类处理，得到分类器输出的目标图像的目标语义分割结果。

在一些实施例中，服务器可以根据目标语义特征和编码特征对目标图像的像素点进行分类，得到目标图像的目标语义分割结果。可以理解，目标图像的像素点的分类结果就是目标图像的目标语义分割结果。

上述语义分割方法中，确定首个语义增强层为当前层，通过当前层对编码特征进行特征提取得到相应的语义特征，根据当前层的语义特征和注意力数据得到语义遮罩数据，语义遮罩数据相较于编码特征包括更加丰富的语义信息以及更需被关注的与语义分割相关的特征。然后通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到相应的语义特征，将下一语义增强层作为当前层，返回根据当前层的语义特征和注意力数据得到语义遮罩数据的步骤循环执行，每一语义增强层的语义特征不断累积了之前语义增强层提取的语义特征以及之前语义增强层指示的需要关注的与语义分割相关的特征，后续得到的最后一语义增强层的目标语义特征充分全面地涵盖了编码特征中的有效信息，最后根据目标语义特征和编码特征能够准确地对目标图像进行语义分割。

在一些实施例中，S202之前，方法还包括：

其中，初始编码特征是编码器输出的特征。目标图像的编码特征是降维后的初始编码特征。预设通道比例用于指示初始编码特征中需要保留的特征通道数量的比例。比如，预设通道比例是1/4，初始编码特征的特征通道数量为256，编码特征的特征通道数量为64。

示例性地，服务器可以通过编码器对目标图像进行特征编码，得到编码器输出的初始编码特征。服务器可以按照预设通道比例，通过减少初始编码特征的特征通道数量，对初始编码特征进行降维处理，得到目标图像的编码特征。可以理解，目标图像的编码特征相较于初始编码特征的特征通道数量更少。

在一些实施例中，服务器可以通过将初始编码特征的特征通道数量投射至预设通道比例的特征通道数量，以实现对初始编码特征进行降维处理。

在一些实施例中，服务器可以通过一1*1卷积层，将初始编码特征的特征通道数量投射至预设通道比例的特征通道数量。可以理解，初始编码特征会经过一1*1卷积层进行降维才能够输入至解码器。

在一些实施例中，编码器可以是resnet50和vgg16等中的任意一种。可以理解，通过上述网络输出的初始编码特征，可以由本申请提供的语义分割方法进行解码处理。其中，resnet50是残差网络。VGG16模型很好的适用于分类和定位任务，其名称来自牛津大学几何组（Visual Geometry Group）的缩写。

在一些实施例中，初始编码特征可以是语义分割模型在最后一层分类器之前提取到的特征。可以理解，语义分割模型在最后一层分类器之前的结构可以相当于编码器，本申请提供的解码器可以作为语义分割模型中的特征增强器。对于语义分割模型，本申请提供的解码器可以用于对语义分割模型在最后一层分类器之前提取到的特征进行增强，使得语义分割模型更加准确。其中，语义分割模型可以基于resnet+ppm构建的。resnet是残差网络。ppm是金字塔池化模块(pyramid pooling module)。

本实施例中，通过根据预设通道比例和初始编码特征的特征通道数量，对初始编码特征进行降维处理，得到目标图像的编码特征，后续编码特征输入至语义增强层中进行特征提取能够有效降低计算开销，节约计算资源。

在一些实施例中，每一语义增强层包括多个语义增强单元；当前层的语义特征包括当前层中的各语义增强单元输出的增强特征；S202中通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征，包括：

其中，语义增强单元相当于语义增强层中的网络单元，多个语义增强单元构建出了语义增强层。增强特征是经过语义增强单元增强后的特征。

示例性地，服务器可以将编码特征输入至当前层中，通过当前层中的首个语义增强单元进行特征增强，得到首个语义增强单元输出的增强特征。服务器可以不断地将上一语义增强单元的输出作为下一语义增强特征的输入，以通过下一语义增强单元进一步地进行特征增强，直至得到当前层中最后一语义增强单元输出的增强特征。可以理解，当前层中除首个语义增强单元外的语义增强单元用于对相应的上一语义增强单元输出的增强特征进行进一步地增强。

在一些实施例中，每一语义增强单元包括3*3卷积核。服务器可以通过语义增强单元中的3*3卷积核对输入至语义增强单元的特征进行特征增强。

本实施例中，通过将编码特征输入至当前层中，通过当前层中的多个语义增强单元进行特征增强，增强后的特征是更高级的特征，包括更丰富的语义信息，基于增强特征进行语义分割能够提高准确性。

在一些实施例中，S202中确定当前层的注意力数据，包括：

根据分类结果，确定当前层的注意力数据。

示例性地，服务器可以将当前层中最后一语义增强单元输出的增强特征作为分类器的输入以通过分类器进行分类处理，得到当前层的分类结果。服务器可以将分类结果确定为当前层的注意力数据。可以理解，当前层的分类结果其实是一种中间形态的输出，能够作为注意力数据用于对当前层的语义特征进行注意力遮罩，使得下一语义增强层能够更关注当前层提取的与分类相关的特征。从低层的语义增强层的分类结果到高层的语义增强层的分类结果，呈现一种越来越准确的趋势，即，通过不断的多层级的语义增强层、多尺度的语义增强单元的优化，得到更加精准的语义分割结果。

在一些实施例中，在对目标图像进行多分类语义分割的场景下，服务器可以对分类结果进行归一化处理，得到注意力数据。可以理解，在对目标图像进行二分类语义分割的场景下，分类结果能够直接作为注意力数据。

在一些实施例中，在对目标图像进行多分类语义分割的场景下，服务器可以将多分类的任务确定为多个二分类的任务，通过分类器进行分类处理得到分类结果。可以理解，此时的分类结果包括多维数据，每维数据可以表征一种类别的分类情况。

本实施例中，根据当前层中最后一语义增强单元输出的增强特征进行分类处理，得到分类结果；根据分类结果确定当前层的注意力数据，后续根据注意力数据和当前层的语义特征得到的语义遮罩数据，能够使下一语义增强层更关注当前层提取的与分类相关的特征。

在一些实施例中，如图4所示提供了得到当前层的语义遮罩数据的流程示意图。当前层对应的注意力数据包括当前层中的每一语义增强单元输出的增强特征对应的权重；当前层对应的语义遮罩数据包括当前层中的各语义增强单元对应的子语义遮罩数据；S204根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据，包括：

S402，根据当前层中的每一语义增强单元输出的增强特征对应的权重，对当前层中的每一语义增强单元输出的增强特征进行加权处理，得到每一语义增强单元对应的加权语义特征。

其中，加权语义特征是加权后的增强特征。

示例性地，注意力数据可以作为当前层中的每一语义增强单元输出的增强特征的注意力遮罩。服务器可以通过分别对注意力数据与当前层中的每一语义增强单元输出的增强特征进行像素级相乘，得到每一语义增强单元对应的加权语义特征。可以理解，语义分割任务指的是像素级别的分类，分类结果可以指示增强特征表征的像素点所属的类别，分类结果和增强特征在像素级别上是一一对应的，因此根据分类结果得到的注意力数据实际上包括对应于像素点的权重，注意力数据能够与每一语义增强单元输出的增强特征进行像素级点乘，以实现对增强特征的加权。

S404，对每一语义增强单元对应的加权语义特征进行非线性映射处理，得到当前层中的各语义增强单元对应的子语义遮罩数据。

示例性地，服务器可以通过1*1卷积对每一语义增强单元对应的加权语义特征进行非线性映射处理，得到当前层中的各语义增强单元对应的子语义遮罩数据。可以理解，子语义遮罩数据需要传递到下一语义增强层以进一步地进行特征增强，因此区别于在当前层中传递的增强特征，子语义遮罩数据中引入的非线性因素能够增强解码器的表征能力。

本实施例中，根据当前层中的每一语义增强单元输出的增强特征对应的权重，得到每一语义增强单元对应的加权语义特征；对每一语义增强单元对应的加权语义特征进行非线性映射处理，得到当前层中的各语义增强单元对应的子语义遮罩数据，后续传递到下一语义增强层的子语义遮罩数据引入了非线性因素，能够增强表征能力，以及子语义遮罩数据引入了当前层的分类结果和增强特征，使得下一语义增强层更关注与分类相关的特征，相当于两语义增强层之间存在正反馈机制，能够有效提高语义分割的准确性。

在一些实施例中，如图5所示提供了得到下一语义增强层的语义特征的流程示意图。每个语义增强层具有多个语义增强单元；相邻语义增强层的语义增强单元之间具有对应关系；当前层对应的语义遮罩数据包括当前层中的各语义增强单元对应的子语义遮罩数据；S206中通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征，包括：

S502，将编码特征和当前层的首个语义增强单元对应的子语义遮罩数据作为下一语义增强层的首个语义增强单元的输入数据，将下一语义增强层的首个语义增强单元作为当前单元，执行通过当前单元对输入数据进行特征增强处理，得到当前单元输出的增强特征。

示例性地，服务器可以将编码特征和当前层的首个语义增强单元对应的子语义遮罩数据作为下一语义增强层的首个语义增强单元的输入数据，将下一语义增强层的首个语义增强单元作为当前单元，执行通过当前单元对输入数据进行叠加，并对叠加后的输入数据进行特征增强处理，得到当前单元输出的增强特征。可以理解，对输入数据进行叠加是指将子语义遮罩数据叠加至编码特征。

S504，将当前单元输出的增强特征和关联的子语义遮罩数据作为下一语义增强层中的下一语义增强单元的输入数据，并将下一语义增强单元作为新的当前单元，返回通过当前单元对输入数据进行特征增强处理的步骤循环执行，直至得到下一语义增强层的最后一语义增强单元输出的增强特征。

示例性地，服务器可以将当前单元输出的增强特征和关联的子语义遮罩数据作为下一语义增强层中的下一语义增强单元的输入数据，并将下一语义增强单元作为新的当前单元，返回通过当前单元对输入数据进行叠加，并对叠加后的输入数据进行特征增强处理的步骤循环执行，直至得到下一语义增强层的最后一语义增强单元输出的增强特征。可以理解，当前单元对输入数据进行叠加是指将关联的子语义遮罩数据叠加至上一语义增强单元输出的增强特征。

本实施例中，通过下一语义增强层的首个语义增强单元对编码特征和当前层的首个语义增强单元的子语义遮罩数据进行特征增强，并不断地通过下一语义增强层的除首个语义增强单元外的语义增强单元对上一语义增强单元输出的增强特征和关联的子语义遮罩数据进行特征增强，直至得到下一语义增强层的最后一语义增强单元输出的增强特征，能够累积当前层提取的语义特征并不断地进行特征增强，充分利用编码特征中的有效信息，提高语义分割的准确性。

在一些实施例中，S210根据目标语义特征和编码特征，对目标图像进行语义分割，得到目标语义分割结果，包括：

示例性地，服务器可以通过上采样函数对目标语义特征和编码特征进行上采样处理，使得目标语义特征和编码特征的维度与目标图像的图像分辨率相匹配，得到上采样后的语义特征和上采样后的编码特征。服务器可以通过与最后一语义增强层连接的另一语义增强单元，对上采样后的编码特征进行特征增强处理，得到增强后的编码特征。可以理解，另一语义增强单元不属于任一语义增强层，是独立的、连接至最后一语义增强层的语义增强单元。服务器可以通过1*1卷积对上采样后的语义特征进行非线性映射处理，得到映射后的语义特征。服务器可以将增强后的编码特征和映射后的语义特征作为分类器的输入以通过分类器进行分类处理，得到目标图像的目标语义分割结果。

在一些实施例中，本申请提供的解码器是通过有监督训练得到的。预测出的目标图像的语义分割结果可以由骰子损失函数（dice loss）或者交叉熵损失函数监督，在损失函数收敛的情况下完成训练。需要说明的是，本申请提供的解码器对损失函数没有要求，不限于骰子损失函数和交叉熵损失函数这两种。

本实施例中，对目标语义特征和编码特征进行上采样处理，对上采样后的编码特征进行特征增强处理，对上采样后的语义特征进行非线性映射处理，根据增强后的编码特征和映射后的语义特征进行分类处理，得到目标图像的目标语义分割结果，通过多语义增强层不断优化积累的语义特征进行语义分割，能够提高准确性。

在一些实施例中，如图6所示提供了解码器的架构图。每一语义增强层包括4个语义增强单元，解码器中包括3个语义增强层。其中，图中的“输入”是指输入至语义增强单元的编码特征，“输出”是指每一语义增强层的分类结果。图6中解码器的工作过程可以被表达为以下公式：

（1）

（2）

（3）

其中，公式（1）中i表示第几个语义增强层。j表示语义增强层中第几个语义增强单元。S表示语义增强单元输出的增强特征。X表示编码特征，由H（I）得到，I表示目标图像，H表示特征编码函数。中心黑点圆表示的是像素级相乘，F表示1x1的卷积+RELU激活函数，G表示3x3卷积+RELU激活函数。Otherwise表示除公式（1）中列举的i和j的情况外的其他情况。公式（2）中Fρ表示分类器函数，比如Fρ可以由1x1卷积+softmax激活函数构成。Y_i表示第i个语义增强层的分类结果，即，注意力数据。M表示语义增强层中语义增强单元的个数，可以理解，S_i,M表示第i个语义增强层的最后一语义增强单元输出的增强特征。N表示语义增强层的个数。公式（3）中U表示上采样函数。S_f表示连接至最后一语义增强层的另一语义增强单元输出的增强特征。Y_f表示语义分割结果。

在一些实施例中，如表1所示提供了三种模型的效率比较列表。

表1

其中，Method表示语义分割方法。PSPNet表示Pyramid Scene Parsing Network，金字塔场景解析网络。Baseline表示PSPNet + FPN。FPN表示Feature Pyramid Networks，特征金字塔。SANet表示本申请提供的语义分割方法。Params表示参数量。FLOPs表示每秒峰值速度。FPS表示画面每秒传输帧数。GPU Usage表示图像处理器的使用情况。可以理解，本申请提供的语义分割方法参数量更小，每秒峰值速度更快，画面每秒传输帧数更小对显卡的处理能力要求更低，图像处理器的占用更小。

在一些实施例中，如表2所示提供了本申请提供的解码器与现有解码器在5个数据集上的检测结果。

表2

其中，CPD和R3Net表示两种不同的现有编码器。BRL是一种现有解码器。SA是本申请提供的解码器。可以理解，在现有编码器连接本申请提供的解码器后表现出更好的语义分割效果。本申请提供的解码器相较于现有解码器在大多数数据集上表现更好。

在一些实施例中，如表3所示提供了本申请提供的解码器接入三种现有编码器的语义分割效果。

表3

其中，VGG-16、ResNet-50、ResNet-101是三种现有编码器。Ours表示本申请提供的解码器。可以理解，本申请提供的解码器相较于其他现有解码器在不同编码器和不同数据集上，大多数情况下语义分割的效果更好。

应该理解的是，虽然如上述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种语义分割装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的语义分割装置实施例中的具体限定可以参见上文中对于语义分割方法的限定，在此不再赘述。

在一些实施例中，如图7所示，提供了一种语义分割装置700，包括：

特征解码模块702，用于确定首个语义增强层为当前层，通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征，以及确定当前层的注意力数据；根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据；通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征，以及确定下一语义增强层的注意力数据；将下一语义增强层作为当前层，返回根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据的步骤循环执行，直至得到最后一语义增强层的目标语义特征；

语义分割模块704，用于根据目标语义特征和编码特征，对目标图像进行语义分割，得到目标语义分割结果。

在一些实施例中，特征解码模块702还用于：获取编码器针对目标图像进行特征编码得到的初始编码特征；根据预设通道比例和初始编码特征的特征通道数量，对初始编码特征进行降维处理，得到目标图像的编码特征。

在一些实施例中，每一语义增强层包括多个语义增强单元；当前层的语义特征包括当前层中的各语义增强单元输出的增强特征；在通过当前层对目标图像的编码特征进行特征提取得到当前层的语义特征方面，特征解码模块702具体用于：

将目标图像的编码特征输入至当前层中，通过当前层中的多个语义增强单元进行特征增强，得到所述当前层的语义特征；其中，当前层中的上一语义增强单元的输出作为下一语义增强单元的输入。

在一些实施例中，在确定当前层的注意力数据方面，特征解码模块702具体用于：

根据分类结果，确定当前层的注意力数据。

在一些实施例中，当前层的注意力数据包括当前层中的每一语义增强单元输出的增强特征对应的权重；当前层对应的语义遮罩数据包括当前层中的各语义增强单元对应的子语义遮罩数据；在根据当前层的语义特征和注意力数据，确定当前层对应的语义遮罩数据方面，特征解码模块702具体用于：

在一些实施例中，每个语义增强层中具有多个语义增强单元；相邻语义增强层的语义增强单元之间具有对应关系；当前层对应的语义遮罩数据包括当前层中的各语义增强单元对应的子语义遮罩数据；在通过下一语义增强层对语义遮罩数据和编码特征进行特征提取得到下一语义增强层的语义特征方面，特征解码模块702具体用于：

将当前单元输出的增强特征和关联的子语义遮罩数据作为下一语义增强层中的下一语义增强单元的输入数据，并将下一语义增强单元作为新的当前单元，返回通过当前单元对输入数据进行特征增强处理的步骤循环执行，直至得到下一语义增强层的最后一语义增强单元输出的增强特征；其中，关联的子语义遮罩数据是下一语义增强单元在当前层中对应的语义增强单元的子语义遮罩数据。

在一些实施例中，在根据目标语义特征和编码特征，对目标图像进行语义分割，得到目标语义分割结果方面，语义分割模块704具体用于：

根据增强后的编码特征和映射后的语义特征进行分类处理，得到目标图像的语义分割结果。

上述语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器，也可以以软件形式存储于计算机设备中的存储器，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）以及通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语义增强层。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的语义分割方法中的步骤。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，提供了一种计算机设备，计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，如图9所示提供了一种计算机可读存储介质的内部结构图，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（FerroelectricRandom Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（StaticRandom Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语义分割方法，其特征在于，包括：

确定首个语义增强层为当前层，通过所述当前层对目标图像的编码特征进行特征提取得到所述当前层的语义特征，以及根据所述当前层的语义特征进行分类处理确定所述当前层的注意力数据；

根据所述当前层的语义特征和注意力数据，确定所述当前层对应的语义遮罩数据；

通过下一语义增强层对所述语义遮罩数据和所述编码特征进行特征提取得到所述下一语义增强层的语义特征，以及确定所述下一语义增强层的注意力数据；

将所述下一语义增强层作为当前层，返回所述根据所述当前层的语义特征和注意力数据，确定所述当前层对应的语义遮罩数据的步骤循环执行，直至得到最后一语义增强层的目标语义特征；

根据所述目标语义特征和所述编码特征，对所述目标图像进行语义分割，得到目标语义分割结果。

2.根据权利要求1所述的方法，其特征在于，所述通过所述当前层对目标图像的编码特征进行特征提取得到所述当前层的语义特征之前，所述方法还包括：

获取编码器针对所述目标图像进行特征编码得到的初始编码特征；

根据预设通道比例和所述初始编码特征的特征通道数量，对所述初始编码特征进行降维处理，得到所述目标图像的编码特征。

3.根据权利要求1所述的方法，其特征在于，每一语义增强层包括多个语义增强单元；所述当前层的语义特征包括所述当前层中的各语义增强单元输出的增强特征；所述通过所述当前层对目标图像的编码特征进行特征提取得到所述当前层的语义特征，包括：

将目标图像的编码特征输入至所述当前层中，通过所述当前层中的多个语义增强单元进行特征增强，得到所述当前层的语义特征；

其中，所述当前层中的上一语义增强单元的输出作为下一语义增强单元的输入。

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前层的语义特征进行分类处理确定所述当前层的注意力数据，包括：

根据所述当前层中最后一语义增强单元输出的增强特征进行分类处理，得到分类结果；

根据所述分类结果，确定所述当前层的注意力数据。

5.根据权利要求1所述的方法，其特征在于，所述当前层的注意力数据包括所述当前层中的每一语义增强单元输出的增强特征对应的权重；所述当前层对应的语义遮罩数据包括所述当前层中的各语义增强单元对应的子语义遮罩数据；

所述根据所述当前层的语义特征和注意力数据，确定所述当前层对应的语义遮罩数据，包括：

根据所述当前层中的每一语义增强单元输出的增强特征对应的权重，对所述当前层中的每一语义增强单元输出的增强特征进行加权处理，得到每一语义增强单元对应的加权语义特征；

对每一语义增强单元对应的加权语义特征进行非线性映射处理，得到所述当前层中的各语义增强单元对应的子语义遮罩数据。

6.根据权利要求1所述的方法，其特征在于，每个语义增强层具有多个语义增强单元；相邻语义增强层的语义增强单元之间具有对应关系；所述当前层对应的语义遮罩数据包括所述当前层中的各语义增强单元对应的子语义遮罩数据；

所述通过下一语义增强层对所述语义遮罩数据和所述编码特征进行特征提取得到所述下一语义增强层的语义特征，包括：

将所述编码特征和所述当前层的首个语义增强单元对应的子语义遮罩数据作为下一语义增强层的首个语义增强单元的输入数据，将所述下一语义增强层的首个语义增强单元作为当前单元，执行通过所述当前单元对所述输入数据进行特征增强处理，得到所述当前单元输出的增强特征；

将所述当前单元输出的增强特征和关联的子语义遮罩数据作为所述下一语义增强层中的下一语义增强单元的输入数据，并将所述下一语义增强单元作为新的当前单元，返回所述通过所述当前单元对所述输入数据进行特征增强处理的步骤循环执行，直至得到所述下一语义增强层的最后一语义增强单元输出的增强特征；

其中，关联的子语义遮罩数据是所述下一语义增强单元在所述当前层中对应的语义增强单元的子语义遮罩数据。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述根据所述目标语义特征和所述编码特征，对所述目标图像进行语义分割，得到目标语义分割结果，包括：

对所述目标语义特征和所述编码特征进行上采样处理，得到上采样后的语义特征和上采样后的编码特征；

对所述上采样后的编码特征进行特征增强处理，得到增强后的编码特征；

对所述上采样后的语义特征进行非线性映射处理，得到映射后的语义特征；

根据所述增强后的编码特征和所述映射后的语义特征进行分类处理，得到目标语义分割结果。

8.一种语义分割装置，其特征在于，包括：

特征解码模块，用于确定首个语义增强层为当前层，通过所述当前层对目标图像的编码特征进行特征提取得到所述当前层的语义特征，以及根据所述当前层的语义特征进行分类处理确定所述当前层的注意力数据；根据所述当前层的语义特征和注意力数据，确定所述当前层对应的语义遮罩数据；通过下一语义增强层对所述语义遮罩数据和所述编码特征进行特征提取得到所述下一语义增强层的语义特征，以及确定所述下一语义增强层的注意力数据；将所述下一语义增强层作为当前层，返回所述根据所述当前层的语义特征和注意力数据，确定所述当前层对应的语义遮罩数据的步骤循环执行，直至得到最后一语义增强层的目标语义特征；

语义分割模块，用于根据所述目标语义特征和所述编码特征，对所述目标图像进行语义分割，得到目标语义分割结果。

9.根据权利要求8所述的装置，其特征在于，所述特征解码模块还用于：获取编码器针对所述目标图像进行特征编码得到的初始编码特征；根据预设通道比例和所述初始编码特征的特征通道数量，对所述初始编码特征进行降维处理，得到所述目标图像的编码特征。

10.根据权利要求8所述的装置，其特征在于，每一语义增强层包括多个语义增强单元；所述当前层的语义特征包括所述当前层中的各语义增强单元输出的增强特征；在所述通过所述当前层对目标图像的编码特征进行特征提取得到所述当前层的语义特征方面，所述特征解码模块具体用于：

将目标图像的编码特征输入至所述当前层中，通过所述当前层中的多个语义增强单元进行特征增强，得到所述当前层的语义特征；其中，所述当前层中的上一语义增强单元的输出作为下一语义增强单元的输入。

11.根据权利要求10所述的装置，其特征在于，在所述根据所述当前层的语义特征进行分类处理确定所述当前层的注意力数据方面，所述特征解码模块具体用于：

根据所述当前层中最后一语义增强单元输出的增强特征进行分类处理，得到分类结果；根据所述分类结果，确定所述当前层的注意力数据。

12.根据权利要求8所述的装置，其特征在于，所述当前层的注意力数据包括所述当前层中的每一语义增强单元输出的增强特征对应的权重；所述当前层对应的语义遮罩数据包括所述当前层中的各语义增强单元对应的子语义遮罩数据；在所述根据所述当前层的语义特征和注意力数据，确定所述当前层对应的语义遮罩数据方面，所述特征解码模块具体用于：

根据所述当前层中的每一语义增强单元输出的增强特征对应的权重，对所述当前层中的每一语义增强单元输出的增强特征进行加权处理，得到每一语义增强单元对应的加权语义特征；对每一语义增强单元对应的加权语义特征进行非线性映射处理，得到所述当前层中的各语义增强单元对应的子语义遮罩数据。

13.根据权利要求8所述的装置，其特征在于，每个语义增强层具有多个语义增强单元；相邻语义增强层的语义增强单元之间具有对应关系；所述当前层对应的语义遮罩数据包括所述当前层中的各语义增强单元对应的子语义遮罩数据；在所述通过下一语义增强层对所述语义遮罩数据和所述编码特征进行特征提取得到所述下一语义增强层的语义特征方面，所述特征解码模块具体用于：

将所述编码特征和所述当前层的首个语义增强单元对应的子语义遮罩数据作为下一语义增强层的首个语义增强单元的输入数据，将所述下一语义增强层的首个语义增强单元作为当前单元，执行通过所述当前单元对所述输入数据进行特征增强处理，得到所述当前单元输出的增强特征；将所述当前单元输出的增强特征和关联的子语义遮罩数据作为所述下一语义增强层中的下一语义增强单元的输入数据，并将所述下一语义增强单元作为新的当前单元，返回所述通过所述当前单元对所述输入数据进行特征增强处理的步骤循环执行，直至得到所述下一语义增强层的最后一语义增强单元输出的增强特征；其中，关联的子语义遮罩数据是所述下一语义增强单元在所述当前层中对应的语义增强单元的子语义遮罩数据。

14.根据权利要求8至13任一项所述的装置，其特征在于，在所述根据所述目标语义特征和所述编码特征，对所述目标图像进行语义分割，得到目标语义分割结果方面，所述语义分割模块具体用于：

对所述目标语义特征和所述编码特征进行上采样处理，得到上采样后的语义特征和上采样后的编码特征；对所述上采样后的编码特征进行特征增强处理，得到增强后的编码特征；对所述上采样后的语义特征进行非线性映射处理，得到映射后的语义特征；根据所述增强后的编码特征和所述映射后的语义特征进行分类处理，得到目标语义分割结果。

15.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。