CN113378756A

CN113378756A - 一种三维人体语义分割方法、终端设备及存储介质

Info

Publication number: CN113378756A
Application number: CN202110707264.0A
Authority: CN
Inventors: 王宗跃; 陈文平; 陈智鹏
Original assignee: Shenzhen Saiwei Network Technology Co ltd; Jimei University
Current assignee: Shenzhen Saiwei Network Technology Co ltd; Jimei University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-10
Anticipated expiration: 2041-06-24
Also published as: CN113378756B

Abstract

本发明涉及一种三维人体语义分割方法、终端设备及存储介质，该方法中,首先设计一个基于空洞卷积，并行核卷积和注意力机制的人体多视图语义分割方法，可以充分提取人体点云投影到二维的像素级特征；然后设计了一个基于稀疏卷积和场景补全的人体体素语义分割方法，稀疏卷积可以较少内存消耗，场景补全可以辅助网络更好的分割人体不同部位；最后将基于多视图，体素和原始人体点云的三分支语义分割方法结合到一起并通过高斯加权交叉熵损失监督，改进了传统三维点云普遍使用单阶段语义分割方法的思想。

Description

一种三维人体语义分割方法、终端设备及存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种三维人体语义分割方法、终端设备及存储介质。

背景技术

点云语义分割是语义分割的三维形式，其使用三维点云代替二维图像中的像素。点云可以通过多种方式获取。第一种从光谱图像间接生成点云，通过摄像机类似的电光系统获取多视图图像，并根据摄影测量或计算机视觉理论中的原理计算三维点信息；第二种激光雷达采集点云，激光雷达利用激光能量来测量传感器与采集对象之间的距离，雷达系统分为机载雷达扫描(ALS)，地面雷达扫描(TLS)，移动雷达扫描(MLS)和无人驾驶扫描(ULS)系统；第三种通过RGB-D传感器获取RGB和深度信息，深度图中包含每个像素的3D空间位置可直接用于产生点云；第四种通过干涉性合成孔径雷达(INSAR)采集点云，合成孔径雷达断层扫描法和持久性散射器干涉法可将SAR图像原理延申到点云。

点云语义分割在各个领域有着广泛的应用，包括城市规划，森林遥感监控，机器人场景感知，自动驾驶等。例如通过语义分割对城市建筑物，道路，绿化等进行分割进而辅助城市规划；通过语义分割对高大灌木，植被，河流等进行分割进而辅助森林遥感监控；通过语义分割对室内家居，障碍物进行识别辅助机器人场景感知；通过语义分割对室外车辆，斑马线，行人进行分割辅助车辆自动驾驶。

目前主流的语义分割方法为基于点的方法。基于点的方法直接以原始点云作为网络输入。基于体素的方法会受到内存的严格限制，因此在低分辨率情况下，多个点或者多个体素可能合并为一个网格而变得难以区分。基于多视图的方法存在遮挡，光照或者相机姿态未对准的情况，因此无法在标准3D分割基准上达到SOTA性能。当涉及本地邻居搜索时，基于点的方法很难达到实时要求。

发明内容

为了解决上述问题，本发明提出了一种三维人体语义分割方法、终端设备及存储介质。

具体方案如下：

一种三维人体语义分割方法，包括以下步骤：

S1：采集原始人体点云C_raw，并将其投影到多个虚拟摄像机视图中，生成多副二维人体图像；

S2：针对每副人体图像计算其中每个像素的分割结果，并将多幅人体图像中对应的各像素的分割结果进行融合后，得到人体点云中每个点的第一语义分割结果S_img；

S3：对原始人体点云进行体素化处理，得到人体点云的体素表示；通过基于稀疏卷积和子流形稀疏卷积的U-Net网络对每个点的体素进行卷积后，将卷积结果转换为点状特征F_point，并将点状特征F_point转换为形状先验特征F_shape；

S4：将点状特征F_point输入第一全连接网络中，并将第一全连接网络的输出输入编码器解码器网络中，得到语义场景补全结果S_complete；

S5：将形状先验特征F_shape和语义场景补全结果S_complete输入到点-体素模块内，点-体素模块首先从语义场景补全结果S_complete中选择所有非空体素的几何中心作为新人体点云C_new，然后使用k最近邻算法查询原始人体点云C_raw中的最近点；

S6：将新人体点云C_new和原始人体点云C_raw输入图卷积网络，并将图卷积网络的输出输入第二全连接网络后，得到每个点的第二语义分割结果S_voxel；

S7：将原始人体点云C_raw直接输入PointNet网络中，得到每个点的第三语义分割结果S_point；

S8：将第一、第二和第三语义分割结果S_img、S_voxel和S_point相加后，得到三维人体语义分割结果；

S9：将第一、第二和第三语义分割结果S_img、S_voxel和S_point分别进行加权交叉熵损失计算，并通过高斯函数调整不同损失之间的比例，得到最终的分割结果。

进一步的，步骤S2中针对每副人体图像计算其中每个像素的分割结果的过程包括以下步骤：

S201：针对每副人体图像提取其特征图；

S202：将特征图输入多个并行的遵循金字塔结构的可变核卷积模块；

S203：将多个可变核卷积模块的输出通过注意力池化层进行融合；

S204：将注意力池化层融合后的结果输入全卷积网络层中，输出人体图像中每个像素的分割结果。

进一步的，步骤S201中通过卷积网络提取每副人体图像的特征图。

进一步的，卷积网络采用ResNet50网络结果，并采用空洞卷积替换ResNet50中的普通卷积层。

进一步的，步骤S3中体素化处理采用八叉树算法进行。

进一步的，步骤S3中将卷积结果转换为点状特征F_point采用最近邻插值算法进行。

进一步的，步骤S3中将点状特征F_point转换为形状先验特征F_shape采用多层感知机进行。

进一步的，还包括S9：将第一、第二和第三语义分割结果S_img、S_voxel和S_point分别进行加权交叉熵损失计算，并通过高斯函数调整不同损失之间的比例，得到最终的分割结果。

一种三维人体语义分割终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，充分利用三个方向语义分割的优势互补优化了三维人体的语义分割结果，并通过高斯加权交叉熵损失监督，优化三维人体语义分割结果，改进了传统三维人体分割普遍使用单阶段语义分割方法的思想。

附图说明

图1所示为本发明实施例一的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种三维人体语义分割方法，如图1所示，其为本发明实施例所述的三维人体语义分割方法的流程图，所述方法包括以下步骤：

S1：采集原始人体点云C_raw，并将其投影到多个虚拟摄像机视图中，生成多副二维人体图像。

该实施例中二维人体图像均为彩色图像。

S2：针对每副人体图像计算其中每个像素的分割结果，并将多幅人体图像中对应的各像素的分割结果进行融合后，得到人体点云中每个点的第一语义分割结果S_img。

该实施例中针对每副人体图像计算其中每个像素的分割结果的过程包括以下步骤：

S201：针对每副人体图像提取其特征图。

该实施例中每副人体图像的特征图通过卷积网络进行提取。卷积网络采用ResNet50网络结果，并采用空洞卷积替换ResNet50中的普通卷积层，以扩大感受野。空洞率依次设置为[1，2，5，7，9]，循环更替。

S202：将特征图输入多个并行的遵循金字塔结构的可变核卷积模块。

该实施例中步骤S202采用四个并行的可变核卷积模块，以捕捉全局上下文信息，卷积核大小分别为1x1,3x3,5x5,7x7。

S203：将多个可变核卷积模块的输出通过注意力池化层进行融合。

注意力机制根据注意力得分计算多个可变核卷积模块输出特征的重要程度，选择可区分物体语义类别的重要特征融合到一起。

该实施例中将多幅人体图像中对应的各像素的分割结果进行融合为将多图人体图像中像素在不同人体图像中的分数进行累加，语义分割结果即为每个点在各类别的得分。

S3：对原始人体点云进行体素化处理，得到人体点云的体素表示；通过基于稀疏卷积和子流形稀疏卷积的U-Net网络对每个点的体素进行卷积后，将卷积结果转换为点状特征F_point，并将点状特征F_point转换为形状先验特征F_shape。

该实施例中采用八叉树对原始人体点云进行体素化处理；将卷积结果转换为点状特征F_point采用最近邻插值算法进行；将点状特征F_point转换为形状先验特征F_shape采用多层感知机进行，通过多层感知机的转换，可以辅助三维点云语义分割。

由于点云是稀疏的，所以存在大量空体素导致计算量的增加，该实施例中通过基于稀疏卷积和子流形稀疏卷积的U-Net网络对每个点的体素进行卷积，跳过了未激活的空体素，可以减少内存消耗。

S4：将点状特征F_point输入第一全连接网络中，得到初始人体点级语义分割结果S_init，并将第一全连接网络的输出的初始人体点级语义分割结果S_init输入编码器解码器网络中，得到语义场景补全结果S_complete。

S5：将形状先验特征F_shape和语义场景补全结果S_complete输入到点-体素模块内，点-体素模块首先从语义场景补全结果S_complete中选择所有非空体素的几何中心作为新人体点云C_new，然后使用基于欧氏距离的k最近邻算法查询原始人体点云C_raw中的最近点。

S6：将新人体点云C_new和原始人体点云C_raw输入图卷积网络，并将图卷积网络的输出输入第二全连接网络后，得到每个点的第二语义分割结果S_voxel。

图卷积网络用于增强学习新人体点云C_new和原始人体点云C_raw之间的关系，使形状先验特征F_shape能够更好的预测完整人体点云的每个点的语义类别。

S7：将原始人体点云C_raw直接输入PointNet网络中，得到每个点的第三语义分割结果S_point。

S8：将第一、第二和第三语义分割结果S_img、S_voxel和S_point相加后，得到三维人体语义分割结果S＝S_img+S_voxel+S_point。

进一步的，该实施例中还包括对三维人体语义分割结果进行优化，具体采用步骤S9：将第一、第二和第三语义分割结果S_img、S_voxel和S_point分别进行加权交叉熵损失计算，并通过高斯函数调整不同损失之间的比例，得到最终的分割结果。

该实施例中高斯函数为：

其中，L_img(W_img)、L_voxel(W_voxel)和L_point(W_point)分别表示S_img、S_voxel和S_point的加权交叉熵损失，σ₁、σ₂和σ₃均表示宽度参数。

本发明实施例结合了基于多视图，体素和点语义分割三种思想并进行创新与推广。首先设计一个基于空洞卷积，并行核卷积和注意力机制的人体多视图语义分割方法，可以充分提取人体点云投影到二维的像素级特征；然后设计了一个基于稀疏卷积和场景补全的人体体素语义分割方法，稀疏卷积可以较少内存消耗，场景补全可以辅助网络更好的分割人体不同部位；最后将基于多视图，体素和原始人体点云的三分支语义分割方法结合到一起并通过高斯加权交叉熵损失监督，改进了传统三维点云普遍使用单阶段语义分割方法的思想。

实施例二：

本发明还提供一种三维人体语义分割终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述三维人体语义分割终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述三维人体语义分割终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述三维人体语义分割终端设备的组成结构仅仅是三维人体语义分割终端设备的示例，并不构成对三维人体语义分割终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述三维人体语义分割终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述三维人体语义分割终端设备的控制中心，利用各种接口和线路连接整个三维人体语义分割终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述三维人体语义分割终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述三维人体语义分割终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种三维人体语义分割方法，其特征在于，包括以下步骤：

S8：将第一、第二和第三语义分割结果S_img、S_voxel和S_point相加后，得到三维人体语义分割结果。

2.根据权利要求1所述的三维人体语义分割方法，其特征在于：步骤S2中针对每副人体图像计算其中每个像素的分割结果的过程包括以下步骤：

S201：针对每副人体图像提取其特征图；

3.根据权利要求2所述的三维人体语义分割方法，其特征在于：步骤S201中通过卷积网络提取每副人体图像的特征图。

4.根据权利要求3所述的三维人体语义分割方法，其特征在于：卷积网络采用ResNet50网络结果，并采用空洞卷积替换ResNet50中的普通卷积层。

5.根据权利要求1所述的三维人体语义分割方法，其特征在于：步骤S3中体素化处理采用八叉树算法进行。

6.根据权利要求1所述的三维人体语义分割方法，其特征在于：步骤S3中将卷积结果转换为点状特征F_point采用最近邻插值算法进行。

7.根据权利要求1所述的三维人体语义分割方法，其特征在于：步骤S3中将点状特征F_point转换为形状先验特征F_shape采用多层感知机进行。

8.根据权利要求1所述的三维人体语义分割方法，其特征在于：还包括S9：将第一、第二和第三语义分割结果S_img、S_voxel和S_point分别进行加权交叉熵损失计算，并通过高斯函数调整不同损失之间的比例，得到最终的分割结果。

9.一种三维人体语义分割终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～8中任一所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～8中任一所述方法的步骤。