CN114004972A

CN114004972A - 一种图像语义分割方法、装置、设备和存储介质

Info

Publication number: CN114004972A
Application number: CN202111464374.5A
Authority: CN
Inventors: 徐鑫
Original assignee: Jingdong Kunpeng Jiangsu Technology Co Ltd
Current assignee: Jingdong Kunpeng Jiangsu Technology Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-02-01

Abstract

本发明实施例公开了一种图像语义分割方法、装置、设备和存储介质，该方法包括：获取目标深度图像和目标深度图像对应的目标彩色图像；对目标深度图像进行点云转换，获得三维点云数据，三维点云数据包括：由目标深度图像产生的各个可见点和被可见点遮挡的各个遮挡点；将目标彩色图像投影至三维点云空间中，确定每个可见点对应的语义特征信息；将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签；根据预设语义分割网络模型的输出，获得目标深度图像对应的语义分割结果，从而可以提高语义分割准确性和分割效率。

Description

一种图像语义分割方法、装置、设备和存储介质

技术领域

本发明实施例涉及计算机处理技术，尤其涉及一种图像语义分割方法、装置、设备和存储介质。

背景技术

随着计算机技术的快速发展，可以从图像级别的分类进一步发展到像素级别的分类。图像语义分割是确定出图像中的每个像素所属于的类别，从而以像素级别分割出图像中的不同物体，提高分割的精确度。

目前，可以利用全卷积网络模型进行图像语义分割。然而，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

对单一视角下采集的图像进行语义分割时，往往会因为缺失一些几何结构而在一定程度上影响分割效果，无法保证语义分割准确性。

发明内容

本发明实施例提供了一种图像语义分割方法、装置、设备和存储介质，以提高语义分割准确性和分割效率。

第一方面，本发明实施例提供了一种图像语义分割方法，包括：

获取目标深度图像和所述目标深度图像对应的目标彩色图像；

对所述目标深度图像进行点云转换，获得三维点云数据，所述三维点云数据包括：由所述目标深度图像产生的各个可见点和被所述可见点遮挡的各个遮挡点；

将所述目标彩色图像投影至三维点云空间中，确定每个所述可见点对应的语义特征信息；

将所述三维点云数据和各个所述可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签；

根据所述预设语义分割网络模型的输出，获得所述目标深度图像对应的语义分割结果。

第二方面，本发明实施例还提供了一种图像语义分割装置，包括：

图像获取模块，用于获取目标深度图像和所述目标深度图像对应的目标彩色图像；

点云转换模块，用于对所述目标深度图像进行点云转换，获得三维点云数据，所述三维点云数据包括：由所述目标深度图像产生的各个可见点和被所述可见点遮挡的各个遮挡点；

图像投影模块，用于将所述目标彩色图像投影至三维点云空间中，确定每个所述可见点对应的语义特征信息；

数据输入模块，用于将所述三维点云数据和各个所述可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签；

语义分割结果获取模块，用于根据所述预设语义分割网络模型的输出，获得所述目标深度图像对应的语义分割结果。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的图像语义分割方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的图像语义分割方法。

上述发明中的实施例具有如下优点或有益效果：

通过对目标深度图像进行点云转换，获得由目标深度图像产生的各个可见点和被所述可见点遮挡的各个遮挡点，并将目标深度图像对应的目标彩色图像投影至三维点云空间中，确定每个可见点对应的语义特征信息。将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定出每个可见点对应的语义标签和每个遮挡点对应的语义标签，并基于预设语义分割网络模型的输出，获得目标深度图像对应的语义分割结果，从而利用场景补全可以为语义分割提供更多的几何结构信息，并且结合目标彩色图像所携带的纹理信息以及深度图像中的几何信息进行语义分割，进而提高语义分割准确性。并且，通过将目标深度图像转换为无序稀疏的三维点云数据，从而可以仅输入由可见点和被可见点遮挡的遮挡点所组成的三维点云数据，无需输入看到的空点等无意义点，进而可以避免对无意义的可忽略点进行不必要的计算，进而也提高了分割效率。

附图说明

图1是本发明实施例一提供的一种图像语义分割方法的流程图；

图2是本发明实施例一所涉及的一种图像语义分割过程的示例；

图3是本发明实施例一所涉及的一种预设语义分割网络模型的输入点云和输出点云的示例；

图4是本发明实施例二提供的一种图像语义分割方法的流程图；

图5是本发明实施例二所涉及的一种预设语义分割网络模型的网络结构的示例；

图6是本发明实施例三提供的一种图像语义分割方法的流程图；

图7是本发明实施例三所涉及的一种图像语义分割过程的示例；

图8是本发明实施例四提供的一种图像语义分割装置的结构示意图；

图9是本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种图像语义分割方法的流程图，本实施例可适用于基于应用场景中采集的深度图像和彩色图像进行语义分割的情况。该方法可以由图像语义分割装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于电子设备中。如图1所示，该方法具体包括以下步骤：

S110、获取目标深度图像和目标深度图像对应的目标彩色图像。

其中，目标深度图像可以是指利用布置在应用场景中的深度摄像头或者其他采集设备所采集的单一视角下的深度图像。应用场景可以是指任意一种需要识别物体的业务场景，比如，机器人场景、无人驾驶场景等。目标彩色图像可以是指每个像素由R(Red，红色)、G(Green，黄色)、B(Blue，蓝色)分量构成的图像。目标彩色图像可以是指利用布置在应用场景中的RGB摄像头所采集的单一视角下的彩色图像。

具体地，本实施例可以获取针对应用场景实时采集的目标深度图像和应用场景中同一检测区域内的目标彩色图像，以便利用目标彩色图像所携带的纹理信息作为区分几何相似物体的辅助信息，提高分割效果。

S120、对目标深度图像进行点云转换，获得三维点云数据，三维点云数据包括：由目标深度图像产生的各个可见点和被可见点遮挡的各个遮挡点。

其中，可见点可以是指由目标深度图像产生的预设检测范围内的非空点。遮挡点可以是指在图像视角下被可见点遮挡的遮挡点。遮挡点可以包括空点和非空点。

具体地，图2给出了一种图像语义分割过程的示例。如图2所示，可以基于摄像头的内标定参数，对目标深度图像进行坐标转换，获得无序稀疏的三维点云数据，即获得每个可见点对应的三维坐标信息和每个遮挡点对应的三维坐标信息。图3给出了一种预设语义分割网络模型的输入点云和输出点云的示例。如图3中的输入点云所示，在三维网格空间中存在三种点：第一种是由目标深度图像产生的可见点；第二种是在图像视角下被可见点遮挡的遮挡点，即可见点后面的遮挡点；第三种是可被忽略的点，这些点包括看到的空点以及检测范围之外的点。本实施例通过将目标深度图像转换为三维点云数据，可以仅关注用于决定几何结构的可见点和遮挡点，无需关注无意义的可忽略点，从而采用点云坐标代替三维网格，可以避免对空体素进行不必要的计算，提高分割效率。

S130、将目标彩色图像投影至三维点云空间中，确定每个可见点对应的语义特征信息。

其中，语义特征信息可以用于表征每个可见点的纹理信息。

具体地，如图2所示，可以基于摄像头的内参矩阵信息和目标深度图像，将二维的目标彩色图像投影到三维点云空间中，获得每个可见点对应的语义特征信息。

S140、将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签。

其中，预设语义分割网络模型可以是预先设置的输入输出异构的点云分割网络模型。本实施例中的预设语义分割网络模型可以是预先基于样本数据进行训练获得的。预设语义分割网络模型通过联合学习场景补全和语义标注，可以隐式地组合语义和几何信息，从而获得分割效果较好的预设语义分割网络模型。需要说明的是，在训练预设语义分割网络模型过程中，每个三维网格样本中可见点和遮挡点的数量不均匀，从而可以将点云进行分组，每一组包含相同数量的可见点和遮挡点，并基于所有组的结果得到最终的预测结果，进而可以保证预设语义分割网络模型的训练效果。

具体地，如图2和图3所示，通过将由各个可见点和各个遮挡点所组成的三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中，例如，可以将RGB向量与相应的点坐标向量进行拼接后输入至预设语义分割网络模型中，从而预设语义分割网络模型可以基于每个可见点对应的三维坐标信息和语义特征信息进行输入输出异构的语义场景补全，确定出每个可见点对应的语义标签和每个遮挡点对应的语义标签，从而有效地融合表观信息和几何信息，并基于可见点可以在遮挡区域中生成新的语义点，也就是通过场景补全为语义分割提供更多的几何信息，使得预设语义分割网络模型可以准确地识别出几何结构相似的物体，提高了语义分割的准确性。

S150、根据预设语义分割网络模型的输出，获得目标深度图像对应的语义分割结果。

具体地，预设语义分割网络模型可以基于预设显示方式，对每个可见点对应的语义标签和每个遮挡点对应的语义标签进行标签显示。例如，可以利用不同的颜色或样式显示不同的语义标签，以便用户进行识别区分，从而预设语义分割网络模型可以输出语义分割后的分割图，即目标深度图像对应的语义分割结果。如图3中的输出点云所示，预设语义分割网络模型可以为每个可见点和每个遮挡点推断出一个语义标签，比如，一部分可见点的语义标签为桌子，还有一部分可见点的语义标签为椅子，以及，一部分遮挡点的语义标签为桌子，一部分遮挡点的语义标签为椅子，还有一部分遮挡点的语义标签为空点，即表明此处没有物体对象。

本实施例的技术方案，通过对目标深度图像进行点云转换，获得由目标深度图像产生的各个可见点和被可见点遮挡的各个遮挡点，并将目标深度图像对应的目标彩色图像投影至三维点云空间中，确定每个可见点对应的语义特征信息。将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定出每个可见点对应的语义标签和每个遮挡点对应的语义标签，并基于预设语义分割网络模型的输出，获得目标深度图像对应的语义分割结果，从而利用场景补全可以为语义分割提供更多的几何结构信息，并且结合目标彩色图像所携带的纹理信息以及深度图像中的几何信息进行语义分割，进而提高语义分割准确性。并且，通过将目标深度图像转换为无序稀疏的三维点云数据，从而可以仅输入由可见点和被可见点遮挡的遮挡点所组成的三维点云数据，无需输入看到的空点等无意义点，进而可以避免对无意义的可忽略点进行不必要的计算，进而也提高了分割效率。

实施例二

图4为本发明实施例二提供的一种图像语义分割方法的流程图，本实施例在上述实施例的基础上，预设语义分割网络模型可以包括：可见点编码子模型和遮挡点解码子模型，并对该预设语义分割网络模型的语义分割过程进行了详细描述。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

可见点编码子模型和遮挡点解码子模型均可以利用矩阵变换卷积操作XConv进行网络模型设计。例如，可见点编码子模型可以是利用矩阵变换卷积操作XConv对可见点进行特征提取。遮挡点解码子模型也可以是利用矩阵变换卷积操作XConv将提取的可见点特征映射到遮挡点上并进行特征融合，从而准确地确定出每个可见点和每个遮挡点对应的语义标签。

本实施例在介绍可见点编码子模型和遮挡点解码子模型的具体结构之前，先描述下矩阵变换卷积操作XConv。XConv是指在X矩阵变换后的点云上进行卷积操作。XConv的输入是一组点P，每个点都与特征F相关联。可以对输入的一组点P进行采样选择一组代表点P′来承载输出特征。通过对[PF]应用XConv，可以获得与代表点P′关联的更高级别的特征F′，即XConv的操作过程可以简单概括为：F′＝XConv(P,F,P′)。

参见图4，本实施例提供的图像语义分割方法具体包括以下步骤：

S410、获取目标深度图像和目标深度图像对应的目标彩色图像。

S420、对目标深度图像进行点云转换，获得三维点云数据，三维点云数据包括：由目标深度图像产生的各个可见点和被可见点遮挡的各个遮挡点。

S430、将目标彩色图像投影至三维点云空间中，确定每个可见点对应的语义特征信息。

S440、将每个可见点对应的三维坐标信息和语义特征信息输入至可见点编码子模型中，对各个可见点进行特征提取，确定各个可见点中的可见代表点对应的可见特征信息。

其中，可见点编码子模型可以包括：预设数量的编码层。编码层的预设数量L可以基于业务需求和实际场景进行设置。例如，图5给出了一种预设语义分割网络模型的网络结构的示例。如图5所示，可见点编码子模型包括2个编码层。

示例性地，S440可以包括：将上一编码层输出的可见代表点对应的可见特征信息输入至当前编码层中进行矩阵变换卷积操作，确定当前编码层中的可见代表点对应的可见特征信息。其中，当前编码层中的可见代表点的数量小于上一编码层中的可见代表点的数量。

具体地，每个编码层可以用于：对上一编码层输出的可见代表点对应的可见特征信息进行矩阵变换卷积操作，确定当前编码层中的可见代表点对应的可见特征信息，并将当前编码层中的可见代表点对应的可见特征信息输入至下一编码层和遮挡点解码子模型中。

具体地，如图5所示，可见点编码子模型可以将输入的所有可见点的三维坐标信息和语义特征信息投影到越来越少的代表可见点上(低分辨率)，并将每个编码层输出的可见代表点对应的可见特征信息输入至下一编码层以及遮挡点解码子模型中。例如，对于每个编码层i(i＝1,2…L)而言，可以表示如下：

P_b[i]＝Represent(P_b[i-1])

F_b[i]＝XConv(P_b[i-1],F_b[i-1],P_b[i])

编码层i的输入为上一编码层输出的可见代表点P_b[i-1]对应的可见特征信息F_b[i-1]，输出为当前编码层中的可见代表点P_b[i]对应的可见特征信息F_b[i]。可见代表点P_b[i]是通过采样操作Represent从P_b[i-1]中采样的可见点。需要注意的是，每个可见代表点均分配了一个可见点特征信息。当i＝1时，即第一个编码层时，P_b[0]和F_b[0]表示的是输入的所有可见点以及可见点对应的由三维坐标信息和语义特征信息融合后的特征信息。

S450、将可见代表点对应的可见特征信息输入至遮挡点解码子模型中，将可见代表点对应的可见特征信息映射到各个遮挡点中的代表遮挡点上并进行特征融合，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签。

其中，遮挡点解码子模型可以包括：预设数量的解码层和全连接层，解码层与编码层一一对应，并且解码层的解码顺序与编码层的编码顺序相反。

示例性地，S450可以包括：将当前编码层中的可见代表点对应的可见特征信息输入至遮挡点解码子模型中相应的当前解码层中进行矩阵变换逆卷积操作，确定当前解码层中的目标代表点对应的第一特征信息，其中，目标代表点包括当前编码层输入的可见代表点和当前解码层中的遮挡代表点；将上一解码层中的目标代表点对应的目标特征信息输入至当前解码层中进行矩阵变换逆卷积操作，确定当前解码层中的目标代表点对应的第二特征信息；对第一特征信息和第二特征信息进行融合处理，确定当前解码层中的目标代表点对应的目标特征信息，并将当前解码层中的目标代表点对应的目标特征信息输入至下一解码层；将最后一个解码层中的目标代表点对应的目标特征信息输入至全连接层进行处理，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签。

具体地，遮挡点解码子模型中的解码层与可见点编码子模型中的编码层一一对应，并且解码层的解码顺序与编码层的编码顺序相反，也就是，第一个编码层对应最后一个解码层，最后一个编码层对应第一个解码层。可见点编码子模型中的每个编码层将确定出的可见代表点对应的可见特征信息输入至相应的解码层中进行可见点到遮挡点的解码操作。遮挡点解码子模型可以将特征投影到遮挡代表点上，最后预测出每个可见点和遮挡点对应的语义标签。

其中，当前解码层中的遮挡代表点的数量大于上一解码层中的遮挡代表点的数量。

具体地，遮挡点解码子模型是将低分辨信息传播到高分辨率预测中。如图5所示，遮挡点解码子模型中的每个解码层中包含两种代表点：一种是相应编码层输入的可见代表点，另一种是当前解码层中的遮挡代表点。需要说明的是，每个解码层中的遮挡代表点可以在当前解码层中进行采样获得，也可以在相应编码层中进行采样获得，即P_c[i]＝Represent(P_c[i-1])，从而可以在编码层中同时进行可见点和遮挡点的采样，然后再将采样的遮挡代表点输入至相应解码层中，以便保证采样准确性。每个编码层中采样的遮挡代表点并不参与编码层的特征提取过程。例如，对于解码层j(j＝1,2…L)而言，解码层j对应的是编码层i＝L-j+1，解码层j的解码操作可以表示如下：

P_bc[j]＝(P_b[i],P_c[i])

F_e[j]＝XDeconv(P_b[i],F_b[i],P_bc[j])

F_d[j]＝XDeconv(P_bc[j-1],F_bc[j-1],P_bc[j])

F_bc[j]＝F_e[j]+F_d[j]

解码层j具有两个输入，第一个输入是相应编码层i输出的可见代表点P_b[i]对应的可见特征信息F_b[i]；第二个输入是上一解码层P_bc[j-1]输出的目标代表点对应的目标特征信息F_bc[j-1]。通过解码层j的矩阵变换逆卷积操作XDeconv，可以将相应编码层i输出的可见代表点P_b[i]对应的可见特征信息F_b[i]映射到当前解码层中的目标代表点P_bc[j]上，即相应编码层输入的可见代表点P_b[i]和当前解码层中的遮挡代表点P_c[i]，获得目标代表点P_bc[j]对应的第一特征信息F_e[j]，以及将上一解码层P_bc[j-1]输出的目标代表点对应的目标特征信息F_bc[j-1]映射到当前解码层中的目标代表点P_bc[j]上，获得目标代表点P_bc[j]对应的第二特征信息F_d[j]。可以对第一特征信息F_e[j]和第二特征信息F_d[j]进行融合处理，比如加权处理，可以获得解码层j输出的目标特征信息F_bc[j]。示例性地，可以将当前解码层中的每个目标代表点对应的第一特征信息F_e[j]和第二特征信息F_d[j]进行相加，获得的相加结果作为当前解码层中的每个目标代表点对应的目标特征信息F_bc[j]。当j＝1时，即第一个解码层时，P_bc[0]＝P_b[L]和F_bc[0]＝F_b[L]表示第一个解码层的输入为最后一个编码层输出的可见代表点P_b[L]对应的可见特征信息F_b[L]。

遮挡点解码子模型中最后一个解码层可以将最终输出的目标代表点对应的目标特征信息，即所有可见点和所有遮挡点对应的目标特征信息输入至一个或多个全连接层中，使得全连接层可以基于每个可见点和每个遮挡点所对应的目标特征信息，为每个可见点和每个遮挡点预测出一个语义标签，从而实现语义场景补全和语义分割，进而提高了分割效果，保证了语义分割准确性。

需要说明的是，利用可见点编码子模型和遮挡点解码子模型可以捕捉到可见点的结构特征，并且遮挡点并不参与特征编码过程中。因为遮挡点包括空点和非空点，而对象结构仅由非空点决定，从而混合在非空点中的空点将隐藏对象结构，从而只有已知结构的可见点输入至可见点编码子模型中进行特征提取，进而保证分割准确性。

S460、根据预设语义分割网络模型的输出，获得目标深度图像对应的语义分割结果。

本实施例的技术方案，通过利用可见点编码子模型和遮挡点解码子模型可以实现输入输出异构的点云分割网络模型，从而利用可见点编码子模型和遮挡点解码子模型可以为语义分割提供更多的几何结构信息，并且结合目标彩色图像所携带的纹理信息以及深度图像中的几何信息进行语义分割，进而提高语义分割准确性和分割效果。

实施例三

图6为本发明实施例三提供的一种图像语义分割方法的流程图，本实施例在上述各实施例的基础上，对“将目标彩色图像投影至三维点云空间中，确定每个可见点对应的语义特征信息”进行了进一步优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图6，本实施例提供的图像语义分割方法具体包括以下步骤：

S610、获取目标深度图像和目标深度图像对应的目标彩色图像。

S620、对目标深度图像进行点云转换，获得三维点云数据，三维点云数据包括：由目标深度图像产生的各个可见点和被可见点遮挡的各个遮挡点。

S630、将目标彩色图像输入至图像分割网络模型中，根据图像分割网络模型的输出，获得目标彩色图像对应的图像分割结果。

其中，图像分割网络模型可以是用于对彩色图像进行二维语义分割的现有网络模型。图像分割网络模型可以预先基于样本数据进行训练获得。

具体地，图7给出了一种图像语义分割过程的示例。如图7所示，将目标彩色图像输入至训练好的图像分割网络模型中进行语义特征的提取，从获得的图像分割结果中可以获得高层的语义特征信息，即目标彩色图像中的每个像素点对应的语义信息。

需要说明的是，由于获得的三维点云数据相比于图像像素较为稀疏，从而将低层的RGB直接投影到点云中可能会丢失彩色图像的细节表观信息，并且由于有些物体具有相同的颜色，比如墙和天花板都是白色的，从而RGB特征信息可能会给输入点云增加一些噪声，所以，通过利用图像分割网络模型可以获得高层的语义特征信息，从而基于语义特征信息可以很容易地分区具有相同颜色的物体，进一步提高了分割准确性。

S640、将目标彩色图像对应的图像分割结果投影至三维点云空间中，确定可见点对应的语义特征信息。

具体地，如图7所示，可以基于摄像头的内参矩阵信息和目标深度图像，将二维的语义特征信息投影到三维点云空间中，获得每个可见点对应的语义特征信息。

S650、将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签。

具体地，通过将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中，例如，可以将语义特征向量与相应的点坐标向量进行拼接后输入至预设语义分割网络模型中，从而预设语义分割网络模型可以基于每个可见点对应的三维坐标信息和语义特征信息进行输入输出异构的语义场景补全，从而可以更加有效地融合表观信息和几何信息，使得预设语义分割网络模型可以更加准确地识别出几何结构和颜色相似的物体，进一步提高语义分割的准确性。

S660、根据预设语义分割网络模型的输出，获得目标深度图像对应的语义分割结果。

本实施例的技术方案，通过将目标彩色图像输入至图像分割网络模型中，获得目标彩色图像对应的图像分割结果，并将图像分割结果投影至三维点云空间中确定可见点对应的语义特征信息，将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，从而可以更加有效地融合表观信息和几何信息，使得预设语义分割网络模型可以更加准确地识别出几何结构和颜色相似的物体，进一步提高语义分割的准确性和分割效果。

以下是本发明实施例提供的图像语义分割装置的实施例，该装置与上述各实施例的图像语义分割方法属于同一个发明构思，在图像语义分割装置的实施例中未详尽描述的细节内容，可以参考上述图像语义分割方法的实施例。

实施例四

图8为本发明实施例四提供的一种图像语义分割装置的结构示意图，本实施例可适用于对应用场景中采集的深度图像进行语义分割的情况，该装置具体包括：图像获取模块810、点云转换模块820、图像投影模块830、数据输入模块840和语义分割结果获取模块850。

其中，图像获取模块810，用于获取目标深度图像和目标深度图像对应的目标彩色图像；点云转换模块820，用于对目标深度图像进行点云转换，获得三维点云数据，三维点云数据包括：由目标深度图像产生的各个可见点和被可见点遮挡的各个遮挡点；图像投影模块830，用于将目标彩色图像投影至三维点云空间中，确定每个可见点对应的语义特征信息；数据输入模块840，用于将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签；语义分割结果获取模块850，用于根据预设语义分割网络模型的输出，获得目标深度图像对应的语义分割结果。

可选地，预设语义分割网络模型包括：可见点编码子模型和遮挡点解码子模型；

数据输入模块840包括：

可见特征信息确定单元，用于将每个可见点对应的三维坐标信息和语义特征信息输入至可见点编码子模型中，对各个可见点进行特征提取，确定各个可见点中的可见代表点对应的可见特征信息；

语义标签确定单元，用于将可见代表点对应的可见特征信息输入至遮挡点解码子模型中，将可见代表点对应的可见特征信息映射到各个遮挡点中的代表遮挡点上并进行特征融合，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签。

可选地，可见点编码子模型包括：预设数量的编码层；

可见特征信息确定单元，具体用于：

将上一编码层输出的可见代表点对应的可见特征信息输入至当前编码层中进行矩阵变换卷积操作，确定当前编码层中的可见代表点对应的可见特征信息。

可选地，遮挡点解码子模型包括：预设数量的解码层和全连接层，解码层与编码层一一对应，并且解码层的解码顺序与编码层的编码顺序相反；

语义标签确定单元，具体用于：将当前编码层中的可见代表点对应的可见特征信息输入至遮挡点解码子模型中相应的当前解码层中进行矩阵变换逆卷积操作，确定当前解码层中的目标代表点对应的第一特征信息，其中，目标代表点包括当前编码层输入的可见代表点和当前解码层中的遮挡代表点；将上一解码层中的目标代表点对应的目标特征信息输入至当前解码层中进行矩阵变换逆卷积操作，确定当前解码层中的目标代表点对应的第二特征信息；对第一特征信息和第二特征信息进行融合处理，确定当前解码层中的目标代表点对应的目标特征信息，并将当前解码层中的目标代表点对应的目标特征信息输入至下一解码层；将最后一个解码层中的目标代表点对应的目标特征信息输入至全连接层进行处理，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签。

可选地，当前编码层中的可见代表点的数量小于上一编码层中的可见代表点的数量；当前解码层中的遮挡代表点的数量大于上一解码层中的遮挡代表点的数量。

可选地，图像投影模块830，包括：

图像分割结果确定单元，用于将目标彩色图像输入至图像分割网络模型中，根据图像分割网络模型的输出，获得目标彩色图像对应的图像分割结果；

图像分割结果投影单元，用于将目标彩色图像对应的图像分割结果投影至三维点云空间中，确定可见点对应的语义特征信息。

本发明实施例所提供的图像语义分割装置可执行本发明任意实施例所提供的图像语义分割方法，具备执行图像语义分割方法相应的功能模块和有益效果。

值得注意的是，上述图像语义分割装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例五

图9为本发明实施例五提供的一种电子设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图9显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的一种图像语义分割方法步骤，该方法包括：

获取目标深度图像和目标深度图像对应的目标彩色图像；

对目标深度图像进行点云转换，获得三维点云数据，三维点云数据包括：由目标深度图像产生的各个可见点和被可见点遮挡的各个遮挡点；

将目标彩色图像投影至三维点云空间中，确定每个可见点对应的语义特征信息；

将三维点云数据和各个可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签；

根据预设语义分割网络模型的输出，获得目标深度图像对应的语义分割结果。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的图像语义分割方法的技术方案。

实施例六

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的图像语义分割方法步骤，该方法包括：

获取目标深度图像和目标深度图像对应的目标彩色图像；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像语义分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设语义分割网络模型包括：可见点编码子模型和遮挡点解码子模型；

所述将所述三维点云数据和各个所述可见点对应的语义特征信息输入至预设语义分割网络模型中进行场景补全和语义分割，确定每个可见点对应的语义标签和每个遮挡点对应的语义标签，包括：

将每个所述可见点对应的三维坐标信息和所述语义特征信息输入至所述可见点编码子模型中，对各个所述可见点进行特征提取，确定各个所述可见点中的可见代表点对应的可见特征信息；

将所述可见代表点对应的可见特征信息输入至所述遮挡点解码子模型中，将所述可见代表点对应的可见特征信息映射到各个所述遮挡点中的代表遮挡点上并进行特征融合，确定每个所述可见点对应的语义标签和每个所述遮挡点对应的语义标签。

3.根据权利要求2所述的方法，其特征在于，所述可见点编码子模型包括：预设数量的编码层；

所述将每个所述可见点对应的三维坐标信息和所述语义特征信息输入至所述可见点编码子模型中，对各个所述可见点进行特征提取，确定各个所述可见点中的可见代表点对应的可见特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述遮挡点解码子模型包括：所述预设数量的解码层和全连接层，所述解码层与所述编码层一一对应，并且所述解码层的解码顺序与所述编码层的编码顺序相反；

所述将所述可见代表点对应的可见特征信息输入至所述遮挡点解码子模型中，将所述可见代表点对应的可见特征信息映射到各个所述遮挡点中的代表遮挡点上并进行特征融合，确定每个所述可见点对应的语义标签和每个所述遮挡点对应的语义标签，包括：

将所述当前编码层中的可见代表点对应的可见特征信息输入至所述遮挡点解码子模型中相应的当前解码层中进行矩阵变换逆卷积操作，确定当前解码层中的目标代表点对应的第一特征信息，其中，所述目标代表点包括当前编码层输入的可见代表点和当前解码层中的遮挡代表点；

将上一解码层中的目标代表点对应的目标特征信息输入至当前解码层中进行矩阵变换逆卷积操作，确定当前解码层中的目标代表点对应的第二特征信息；

对所述第一特征信息和所述第二特征信息进行融合处理，确定当前解码层中的目标代表点对应的目标特征信息，并将当前解码层中的目标代表点对应的目标特征信息输入至下一解码层；

将最后一个解码层中的目标代表点对应的目标特征信息输入至所述全连接层进行处理，确定每个所述可见点对应的语义标签和每个所述遮挡点对应的语义标签。

5.根据权利要求4所述的方法，其特征在于，当前编码层中的可见代表点的数量小于上一编码层中的可见代表点的数量；当前解码层中的遮挡代表点的数量大于上一解码层中的遮挡代表点的数量。

6.根据权利要求4所述的方法，其特征在于，所述对所述第一特征信息和所述第二特征信息进行融合处理，确定当前解码层中的目标代表点对应的目标特征信息，包括：

将当前解码层中的每个所述目标代表点对应的所述第一特征信息和所述第二特征信息进行相加，获得的相加结果作为当前解码层中的每个所述目标代表点对应的目标特征信息。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述将所述目标彩色图像投影至三维点云空间中，确定所述可见点对应的语义特征信息，包括：

将所述目标彩色图像输入至图像分割网络模型中，根据所述图像分割网络模型的输出，获得所述目标彩色图像对应的图像分割结果；

将所述目标彩色图像对应的图像分割结果投影至三维点云空间中，确定所述可见点对应的语义特征信息。

8.一种图像语义分割装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的图像语义分割方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的图像语义分割方法。