CN114092818B

CN114092818B - 语义分割方法、装置、电子设备及存储介质

Info

Publication number: CN114092818B
Application number: CN202210012546.3A
Authority: CN
Inventors: 王金桥; 陈盈盈; 朱炳科
Original assignee: Objecteye Beijing Technology Co Ltd
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-05-03
Anticipated expiration: 2042-01-07
Also published as: CN114092818A

Abstract

本发明提供一种语义分割方法、装置、电子设备及存储介质，其中方法包括：获取待分割图像；将所述待分割图像输入至语义分割模型，得到所述语义分割模型输出的所述待分割图像的语义分割结果；其中，所述语义分割模型是基于样本图像，以及样本图像对应的样本语义分割结果训练得到的；所述语义分割模型基于级联区域分类层对所述待分割图像的增强图像特征进行像素分类特征提取和区域分类特征提取，并基于所述级联区域分类层提取的像素分类特征和区域分类特征对所述待分割图像进行语义分割；所述级联区域分类层包括多个串联的区域分类层。本发明提供的方法和装置，有效地减少图像中无关信息的干扰，提高了语义分割的准确率。

Description

语义分割方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种语义分割方法、装置、电子设备及存储介质。

背景技术

语义分割是将图像分割成多个语义类别不同的区域（如天空、汽车、行人等），从而给图像中的每个像素赋予一个特定的语义类别标签。

现有技术中，通常用全卷积神经网络进行语义分割，该方法将语义分割任务看作是像素级别分类任务，对每个像素输出预测的分类结果。但是，该方法容易受到图像中无关信息的干扰，对于容易混淆的类别和细小物体的识别效果较差，语义分割准确率低。

发明内容

本发明提供一种语义分割方法、装置、电子设备及存储介质，用于解决现有技术中语义分割方法容易受到图像中无关信息的干扰，语义分割准确率低的技术问题。

本发明提供一种语义分割方法，包括：

获取待分割图像；

将所述待分割图像输入至语义分割模型，得到所述语义分割模型输出的所述待分割图像的语义分割结果；

其中，所述语义分割模型是基于样本图像，以及样本图像对应的样本语义分割结果训练得到的；

所述语义分割模型基于级联区域分类层对所述待分割图像的增强图像特征进行像素分类特征提取和区域分类特征提取，并基于所述级联区域分类层提取的像素分类特征和区域分类特征对所述待分割图像进行语义分割；所述级联区域分类层包括多个串联的区域分类层。

根据本发明提供的语义分割方法，所述将所述待分割图像输入至语义分割模型，得到所述语义分割模型输出的所述待分割图像的语义分割结果，包括：

将所述待分割图像输入至所述语义分割模型的特征提取层，得到所述特征提取层输出的增强图像特征；

将所述增强图像特征输入至所述语义分割模型的级联区域分类层，得到所述级联区域分类层输出的融合分类特征；

将所述融合分类特征输入至所述语义分割模型的特征识别层，得到所述特征识别层输出的语义分割结果。

根据本发明提供的语义分割方法，所述将所述增强图像特征输入至所述语义分割模型的级联区域分类层，得到所述级联区域分类层输出的融合分类特征，包括：

将所述增强图像特征输入至所述语义分割模型的级联区域分类层，由所述级联区域分类层中的各区域分类层基于上一区域分类层输出的区域分类特征确定当前区域分类层的像素分类特征和区域分类特征；

基于所述级联区域分类层中末级区域分类层输出的像素分类特征和区域分类特征，确定所述级联区域分类层输出的融合分类特征；

其中，所述级联区域分类层中首级区域分类层的上一区域分类特征为所述增强图像特征。

根据本发明提供的语义分割方法，所述基于上一区域分类层输出的区域分类特征确定当前区域分类层的像素分类特征和区域分类特征，包括：

基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定所述当前区域分类层的区域分类特征；

基于所述当前区域分类层的区域分类特征，以及像素特征提取卷积核，确定所述当前区域分类层的像素分类特征；

其中，所述区域特征提取卷积核的尺寸大于所述像素特征提取卷积核的尺寸。

根据本发明提供的语义分割方法，所述基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定所述当前区域分类层的区域分类特征，包括：

基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定所述上一区域分类层输出的区域预测特征；

基于所述上一区域分类层输出的区域分类特征和区域预测特征，确定所述上一区域分类层输出的区域特征；

基于所述上一区域分类层输出的区域特征和区域分类特征，确定当前区域分类层的区域像素特征关联矩阵；

基于所述上一区域分类层输出的区域特征和区域分类特征，以及所述当前区域分类层的区域像素特征关联矩阵，确定所述当前区域分类层的区域分类特征。

根据本发明提供的语义分割方法，所述将所述待分割图像输入至所述语义分割模型的特征提取层，得到所述特征提取层输出的增强图像特征，包括：

将所述待分割图像输入至所述特征提取层的初始特征提取层，得到所述初始特征提取层输出的初始图像特征；

将所述初始图像特征输入至所述特征提取层的特征增强层，得到所述特征增强层输出的增强图像特征。

根据本发明提供的语义分割方法，所述语义分割模型的损失函数是基于所述级联区域分类层的像素分类交叉熵损失、区域分类交叉熵损失和融合分类交叉熵损失确定的；

所述像素分类交叉熵损失是基于各区域分类层的像素分类特征确定的；所述区域分类交叉熵损失是基于各区域分类层的区域分类特征确定的；所述融合分类交叉熵损失是基于各区域分类层的像素分类特征和区域分类特征确定的。

本发明提供一种语义分割装置，包括：

获取单元，用于获取待分割图像；

分割单元，用于将所述待分割图像输入至语义分割模型，得到所述语义分割模型输出的所述待分割图像的语义分割结果；

本发明提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述语义分割方法的步骤。

本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述语义分割方法的步骤。

本发明提供的语义分割方法、装置、电子设备及存储介质，通过语义分割模型对待分割图像进行语义分割得到语义分割结果，语义分割模型基于级联区域分类层对待分割图像的增强图像特征进行像素分类特征提取和区域分类特征提取，并基于级联区域分类层提取的像素分类特征和区域分类特征对待分割图像进行语义分割，由于级联区域分类层中各个区域分类层均用于提取待分割图像的像素分类特征和区域分类特征，对于细小物体具有较好的识别效果，同时，级联区域分类层的串联结构可以渐进式地增强区域分类特征的特征表达能力，有效地减少图像中无关信息的干扰，通过多个区域分类层的像素分类结果和区域分类结果进行叠加和融合，提高了语义分割的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语义分割方法的流程示意图；

图2是本发明提供的语义分割模型的结构示意图；

图3为本发明提供的区域分类层的运行示意图之一；

图4为本发明提供的区域分类层的运行示意图之二；

图5为本发明提供的特征提取层的结构示意图；

图6是本发明提供的语义分割装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的语义分割方法的流程示意图，如图1所示，该方法包括：

步骤110，获取待分割图像。

具体地，语义分割是对图像中的每一个像素进行分类，将属于同一个语义类别的像素归为一类，目前广泛应用于医学图像分析与无人驾驶等领域。

待分割图像为需要进行语义分割的图像。对待分割图像进行语义分割，就是要将该图像分割成多个语义类别不同的区域，给该图像中的每个像素赋予特定的语义类别标签。

例如，待分割图像可以为一张无人驾驶汽车的车载摄像头获取的图像。根据不同类别的事物，确定该图像的语义类别包括天空、道路、车辆和行人等。对该图像进行语义分割，确定各个语义类别在图像中对应的区域，并将区域内的像素按照对应的语义类别进行标记，比如天空在该图像中对应的区域为上半部分，该区域内的每个像素的语义类别标签可以为天空。

步骤120，将待分割图像输入至语义分割模型，得到语义分割模型输出的待分割图像的语义分割结果；

其中，语义分割模型是基于样本图像，以及样本图像对应的样本语义分割结果训练得到的；

语义分割模型基于级联区域分类层对待分割图像的增强图像特征进行像素分类特征提取和区域分类特征提取，并基于级联区域分类层提取的像素分类特征和区域分类特征对待分割图像进行语义分割；级联区域分类层包括多个串联的区域分类层。

具体地，可以通过语义分割模型对待分割图像进行识别，得到待分割图像的语义分割结果。语义分割结果包括了待分割图像中的多个区域，以及每一区域对应的语义类别。例如，若待分割图像为道路识别图像，则其语义分割结果可以为该图像可以分为上部区域、中部区域和下部区域，上部区域的语义类别为天空，中部区域对应的语义类别为车辆，下部区域对应的语义类别为道路。

可以预先训练得到语义分割模型，具体可以通过如下训练方式得到：首先，收集大量的样本图像；其次，对每一样本图像进行标注，确定每一样本图像对应的样本语义分割结果；再次，根据大量的样本图像以及每一样本图像对应的样本语义分割结果，对初始模型进行训练，使得初始模型能够学习到图像中的像素、像素所在的区域和区域的语义类别之间的关联特性，提高初始模型根据图像进行语义分割的能力，得到语义分割模型。

其中，语义分割模型可以采用级联区域分类层，对图像中的像素、像素所在的区域和区域的语义类别之间的关联特性进行学习。级联区域分类层包括多个区域分类层，各个区域分类层首尾相接，依次串联。其中，级联区域分类层中区域分类层的总数量可以根据实际需要进行设置。区域分类层的数量越多，则越能有效地提高区域分类的准确性。

语义分割模型首先提取待分割图像的初始图像特征，可以采用特征金字塔网络（Feature Pyramid Networks，FPN）等对初始图像特征再次进行语义信息和位置信息提取，得到增强图像特征。将增强图像特征输入至级联区域分类层，由各区域分类层分别对增强图像特征进行像素分类特征提取和区域分类特征提取。其中，像素分类特征用于从待分割图像中每一像素的角度出发，提取像素级别的分类特征。区域分类特征用于从待分割图像中每一区域的角度出发，提取区域级别的分类特征。

级联区域分类层中，当前区域分类层根据上一区域分类特征确定当前像素分类特征和当前区域分类特征，并将当前区域分类特征传输至下一区域分类层，以供下一区域分类层根据当前区域分类特征继续提取下一像素分类特征和下一区域分类特征，最终得到级联区域分类层输出的像素分类特征和区域分类特征。其中，当前像素分类特征为当前区域分类层输出的像素分类特征，当前区域分类特征为当前区域分类层输出的区域分类特征。

最终，语义分割模型根据级联区域分类层提取的像素分类特征和区域分类特征对待分割图像进行语义分割。例如，可以对像素分类特征和区域分类特征进行拼接，根据拼接后的特征进行语义分割。

本发明实施例提供的语义分割方法，通过语义分割模型对待分割图像进行语义分割得到语义分割结果，语义分割模型基于级联区域分类层对待分割图像的增强图像特征进行像素分类特征提取和区域分类特征提取，并基于级联区域分类层提取的像素分类特征和区域分类特征对待分割图像进行语义分割，由于级联区域分类层中各个区域分类层均用于提取待分割图像的像素分类特征和区域分类特征，对于细小物体具有较好的识别效果，同时，级联区域分类层的串联结构可以渐进式地增强区域分类特征的特征表达能力，有效地减少图像中无关信息的干扰，通过多个区域分类层的像素分类结果和区域分类结果进行叠加和融合，提高了语义分割的准确率。

基于上述实施例，步骤120包括：

将待分割图像输入至语义分割模型的特征提取层，得到特征提取层输出的增强图像特征；

将增强图像特征输入至语义分割模型的级联区域分类层，得到级联区域分类层输出的融合分类特征；

将融合分类特征输入至语义分割模型的特征识别层，得到特征识别层输出的语义分割结果。

具体地，图2是本发明提供的语义分割模型的结构示意图，如图2所示，语义分割模型可以包括特征提取层、级联区域分类层和特征识别层。其中，级联区域分类层包括

个串联的区域分类层，区域分类层的数量

可以根据实际需要进行确定。区域分类层的数量相对较多时，最终得到的特征的表达能力相对较强，有利于提高语义分割模型的准确率。

将待分割图像输入至特征提取层，得到特征提取层输出的增强图像特征

。将增强图像特征

输入至级联区域分类层，得到级联区域分类层输出的融合分类特征

。将融合分类特征

输入至特征识别层，得到特征识别层输出的语义分割结果。

其中，增强图像特征可以为特征提取层在对待分割图像提取特征的基础上，进一步提取图像中的语义信息和/或位置信息等得到的具有更强表达能力的特征。融合分类特征可以根据级联区域分类层最终输出的像素分类特征和区域分类特征得到。

基于上述任一实施例，将增强图像特征输入至语义分割模型的级联区域分类层，得到级联区域分类层输出的融合分类特征，包括：

将增强图像特征输入至语义分割模型的级联区域分类层，由级联区域分类层中的各区域分类层基于上一区域分类层输出的区域分类特征确定当前区域分类层的像素分类特征和区域分类特征；

基于级联区域分类层中末级区域分类层输出的像素分类特征和区域分类特征，确定级联区域分类层输出的融合分类特征；

其中，级联区域分类层中首级区域分类层的上一区域分类特征为增强图像特征。

具体地，级联区域分类层中区域分类层的数量为

。

对于首级区域分类层（

），该层将特征提取层输出的增强图像特征

作为输入，确定该层的像素分类特征

和区域分类特征

。

对于第

级区域分类层，

，该层根据上一区域分类层输出的区域分类特征

，确定当前区域分类特征

，再根据区域分类特征

确定像素分类特征

。

最后，根据级联区域分类层中末级区域分类层（

）输出的像素分类特征

和区域分类特征

，确定级联区域分类层输出的融合分类特征

。

基于上述任一实施例，基于上一区域分类层输出的区域分类特征确定当前区域分类层的像素分类特征和区域分类特征，包括：

基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定当前区域分类层的区域分类特征；

基于当前区域分类层的区域分类特征，以及像素特征提取卷积核，确定当前区域分类层的像素分类特征；

其中，区域特征提取卷积核的尺寸大于像素特征提取卷积核的尺寸。

具体地，可以分别通过不同大小的卷积核，对区域分类特征进行特征提取，得到不同级别的特征。本发明实施例中，区域特征提取卷积核的尺寸大于像素特征提取卷积核的尺寸。

区域特征提取卷积核用于从区域级别对上一区域分类层输出的区域分类特征进行特征提取，得到当前区域分类层的区域分类特征。例如，区域特征提取卷积核可以为

的卷积核。

像素特征提取卷积核用于从像素级别对上一区域分类层输出的区域分类特征进行特征提取，得到当前区域分类层的像素分类特征。例如，像素特征提取卷积核可以为

的卷积核。

对于第

级区域分类层，当前层的像素分类特征

与区域分类特征

的关系可以用公式表示为：

其中，

为像素特征提取卷积核对应的特征变换。

基于上述任一实施例，基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定当前区域分类层的区域分类特征，包括：

基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定上一区域分类层输出的区域预测特征；

基于上一区域分类层输出的区域分类特征和区域预测特征，确定上一区域分类层输出的区域特征；

基于上一区域分类层输出的区域特征和区域分类特征，确定当前区域分类层的区域像素特征关联矩阵；

基于上一区域分类层输出的区域特征和区域分类特征，以及当前区域分类层的区域像素特征关联矩阵，确定当前区域分类层的区域分类特征。

具体地，以第

级区域分类层为当前区域分类层，根据上一区域分类层输出的区域分类特征

，以及区域特征提取卷积核，确定上一区域分类层输出的区域预测特征

，可以用公式表示为：

其中，

为区域特征提取卷积核对应的特征变换。

区域预测特征用于对各个语义类别对应的区域进行预测。利用区域预测特征，可以引导区域分类特征与各个语义类别对应的区域预测结果相适应，进行全局关联，得到区域特征。

图3为本发明提供的区域分类层的运行示意图之一，如图3所示，对于当前区域分类层，区域特征

、区域分类特征

和区域预测特征

之间的关系可以用公式表示为：

其中，

为区域归一化变换，则上式又可以表示为：

式中，

为区域预测特征

对应特征图的高度，

为区域预测特征

对应特征图的宽度，

为特征图中任一像素点的高度坐标，

为特征图中任一像素点的宽度坐标。

可以对区域特征

进行特征分类，得到区域分类预测特征

，用公式表示为：

式中，

为用于分类的线性变换，例如，

可以为两个串联的全连接层表示。

区域分类预测特征

可以用于确定每一区域分类预测的类别得分。

按照上面的方法，可以根据上一区域分类层输出的区域分类特征

和区域预测特征

，得到上一区域分类层输出的区域特征

。

在此基础上，图4为本发明提供的区域分类层的运行示意图之二，如图4所示，可以根据上一区域分类层输出的区域特征

和区域分类特征

，确定当前区域分类层的区域像素特征关联矩阵

，用公式表示为：

其中，

为第一线性变换，

为第二线性变换，可以用

的卷积核实现。

区域像素特征关联矩阵用于将区域特征与区域分类特征进行关联，可以用于表示当前区域分类层学习到的像素所在的区域和区域的语义类别之间的关联信息。

根据上一区域分类层输出的区域特征

和区域分类特征

，以及当前区域分类层的区域像素特征关联矩阵

，确定当前区域分类层的区域分类特征

，用公式表示为：

此外，当前区域分类层还根据区域预测特征

和区域分类预测特征

，确定全局区域预测特征

，用公式表示为：

全局区域预测特征可以用于在将区域分类特征进行全局特征关联之后，对各个语义类别对应的区域在全局进行预测，可以作为语义分割的依据。

在此基础上，可以得到当前区域分类层的融合分类特征

，用公式表示为：

基于上述任一实施例，将待分割图像输入至语义分割模型的特征提取层，得到特征提取层输出的增强图像特征，包括：

将待分割图像输入至特征提取层的初始特征提取层，得到初始特征提取层输出的初始图像特征；

将初始图像特征输入至特征提取层的特征增强层，由特征增强层对初始图像特征中的语义信息和/或位置信息进行提取，得到特征增强层输出的增强图像特征。

具体地，图5为本发明提供的特征提取层的结构示意图，如图5所示，特征提取层可以包括串联的初始特征提取层和特征增强层。

初始特征提取层可以选用深度卷积神经网络模型，也可以选择特征表达能力更强的Transformer模型，对待分割图像进行特征提取后，得到初始图像特征。初始图像特征具有较强的判别能力。

由于在提取初始图像特征的过程中，为了得到较为丰富的语义信息，可能丢失了位置信息等其他细节信息，而这些信息可以提高语义分割的准确率，因此，可以采用特征增强层对初始图像特征中的语义信息和/或位置信息进行提取，得到增强图像特征。

特征增强层可以采用特征金字塔网络（Feature Pyramid Networks，FPN）。特征金字塔网络能够对待分割图像中的物体的位置信息和语义信息进行同步提取，从而在增强图像特征的基础上恢复待分割图像中的位置、尺度等细节信息。特征金字塔网络包括多个特征采样层，较高的特征采样层分辨率较低，提取的语义信息较多，位置信息较少；而较低的特征采样层分辨率较高，提取的位置信息较多，语义信息较少。特征金字塔网络对初始图像特征中的语义信息和/或位置信息进行提取，能够得到包含更多语义信息和位置信息，分辨率也更高的增强图像特征。

基于上述任一实施例，语义分割模型的损失函数是基于级联区域分类层的像素分类交叉熵损失、区域分类交叉熵损失和融合分类交叉熵损失确定的；

像素分类交叉熵损失是基于各区域分类层的像素分类特征确定的；区域分类交叉熵损失是基于各区域分类层的区域分类特征确定的；融合分类交叉熵损失是基于各区域分类层的像素分类特征和区域分类特征确定的。

具体地，语义分割模型的损失函数可以根据级联区域分类层中各区域分类层的像素分类交叉熵损失、区域分类交叉熵损失和融合分类交叉熵损失确定。像素分类交叉熵损失、区域分类交叉熵损失和融合分类交叉熵损失可以采用交叉熵损失函数进行确定。

语义分割模型的损失函数

可以用公式表示为：

其中，

为像素分类交叉熵损失，

为区域分类交叉熵损失，

为融合分类交叉熵损失，GT为样本图像对应的样本语义分割结果。

其中，像素分类交叉熵损失

可以根据各区域分类层的像素分类特征

确定。

由上述实施例可知：

可知：

因此，区域分类交叉熵损失

是根据各区域分类层的区域分类特征

确定的。

由上述实施例可知：

因此，融合分类交叉熵损失

是基于各区域分类层的像素分类特征

和区域分类特征

确定的。

基于上述任一实施例，图6是本发明提供的语义分割装置的结构示意图，如图6所示，该装置包括：

获取单元610，用于获取待分割图像；

分割单元620，用于将待分割图像输入至语义分割模型，得到语义分割模型输出的待分割图像的语义分割结果；

本发明实施例提供的语义分割装置，通过语义分割模型对待分割图像进行语义分割得到语义分割结果，语义分割模型基于级联区域分类层对待分割图像的增强图像特征进行像素分类特征提取和区域分类特征提取，并基于级联区域分类层提取的像素分类特征和区域分类特征对待分割图像进行语义分割，由于级联区域分类层中各个区域分类层均用于提取待分割图像的像素分类特征和区域分类特征，对于细小物体具有较好的识别效果，同时，级联区域分类层的串联结构可以渐进式地增强区域分类特征的特征表达能力，有效地减少图像中无关信息的干扰，通过多个区域分类层的像素分类结果和区域分类结果进行叠加和融合，提高了语义分割的准确率。

基于上述任一实施例，分割单元包括：

特征提取子单元，用于将待分割图像输入至语义分割模型的特征提取层，得到特征提取层输出的增强图像特征；

区域分类子单元，用于将增强图像特征输入至语义分割模型的级联区域分类层，得到级联区域分类层输出的融合分类特征；

特征识别子单元，用于将融合分类特征输入至语义分割模型的特征识别层，得到特征识别层输出的语义分割结果。

基于上述任一实施例，区域分类子单元包括：

特征确定模块，用于将增强图像特征输入至语义分割模型的级联区域分类层，由级联区域分类层中的各区域分类层基于上一区域分类层输出的区域分类特征确定当前区域分类层的像素分类特征和区域分类特征；

特征融合模块，用于基于级联区域分类层中末级区域分类层输出的像素分类特征和区域分类特征，确定级联区域分类层输出的融合分类特征；

基于上述任一实施例，特征确定模块包括：

区域分类特征确定子模块，用于基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定当前区域分类层的区域分类特征；

像素分类特征确定子模块，用于基于当前区域分类层的区域分类特征，以及像素特征提取卷积核，确定当前区域分类层的像素分类特征；

基于上述任一实施例，区域分类特征确定子模块用于：

基于上述任一实施例，特征提取子单元具体用于：

基于上述任一实施例，图7为本发明提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器（Processor）710、通信接口（Communications Interface）720、存储器（Memory）730和通信总线（Communications Bus）740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑命令，以执行如下方法：

获取待分割图像；将待分割图像输入至语义分割模型，得到语义分割模型输出的待分割图像的语义分割结果；其中，语义分割模型是基于样本图像，以及样本图像对应的样本语义分割结果训练得到的；

此外，上述的存储器730中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语义分割方法，其特征在于，包括：

获取待分割图像；

所述语义分割模型基于级联区域分类层对所述待分割图像的增强图像特征进行像素分类特征提取和区域分类特征提取，并基于所述级联区域分类层提取的像素分类特征和区域分类特征对所述待分割图像进行语义分割；所述级联区域分类层包括多个串联的区域分类层；

所述将所述待分割图像输入至语义分割模型，得到所述语义分割模型输出的所述待分割图像的语义分割结果，包括：

将所述融合分类特征输入至所述语义分割模型的特征识别层，得到所述特征识别层输出的语义分割结果；

所述将所述增强图像特征输入至所述语义分割模型的级联区域分类层，得到所述级联区域分类层输出的融合分类特征，包括：

其中，所述级联区域分类层中首级区域分类层的上一区域分类特征为所述增强图像特征；

所述基于上一区域分类层输出的区域分类特征确定当前区域分类层的像素分类特征和区域分类特征，包括：

其中，所述区域特征提取卷积核的尺寸大于所述像素特征提取卷积核的尺寸；

所述基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定所述当前区域分类层的区域分类特征，包括：

2.根据权利要求1所述的语义分割方法，其特征在于，所述将所述待分割图像输入至所述语义分割模型的特征提取层，得到所述特征提取层输出的增强图像特征，包括：

3.根据权利要求1或2所述的语义分割方法，其特征在于，所述语义分割模型的损失函数是基于所述级联区域分类层的像素分类交叉熵损失、区域分类交叉熵损失和融合分类交叉熵损失确定的；

4.一种语义分割装置，其特征在于，包括：

获取单元，用于获取待分割图像；

所述分割单元包括：

特征提取子单元，用于将所述待分割图像输入至所述语义分割模型的特征提取层，得到所述特征提取层输出的增强图像特征；

区域分类子单元，用于将所述增强图像特征输入至所述语义分割模型的级联区域分类层，得到所述级联区域分类层输出的融合分类特征；

特征识别子单元，用于将所述融合分类特征输入至所述语义分割模型的特征识别层，得到所述特征识别层输出的语义分割结果；

所述区域分类子单元包括：

特征确定模块，用于将所述增强图像特征输入至所述语义分割模型的级联区域分类层，由所述级联区域分类层中的各区域分类层基于上一区域分类层输出的区域分类特征确定当前区域分类层的像素分类特征和区域分类特征；

特征融合模块，用于基于所述级联区域分类层中末级区域分类层输出的像素分类特征和区域分类特征，确定所述级联区域分类层输出的融合分类特征；

所述特征确定模块包括：

区域分类特征确定子模块，用于基于上一区域分类层输出的区域分类特征，以及区域特征提取卷积核，确定所述当前区域分类层的区域分类特征；

像素分类特征确定子模块，用于基于所述当前区域分类层的区域分类特征，以及像素特征提取卷积核，确定所述当前区域分类层的像素分类特征；

所述区域分类特征确定子模块用于：

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述语义分割方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述语义分割方法的步骤。