CN111462137B

CN111462137B - 一种基于知识蒸馏和语义融合的点云场景分割方法

Info

Publication number: CN111462137B
Application number: CN202010254619.0A
Authority: CN
Inventors: 谭铁牛; 王亮; 张彰; 李亚蓓; 单彩峰
Original assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Current assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-08-08
Anticipated expiration: 2040-04-02
Also published as: CN111462137A

Abstract

本公开提供了基于知识蒸馏和语义融合的点云场景分割方法，构建双流网络框架，包括稠密局部支流和稀疏全局支流。其中稠密局部支流的输入为全局场景中的局部区域稠密点云，稀疏全局支流的输入为采样后的全局场景点云。然后设计了基于不规则数据的蒸馏模块，使用欧式距离和对抗学习损失函数进行知识蒸馏，将局部稠密细节信息传递给稀疏全局支流。最后设计了动态图上下文语义信息融合模块，将细节信息增强后的全局特征与局部特征进行融合。该方法充分互补利用局部场景丰富的细节信息和全局场景丰富的上下文语义信息，同时避免增加计算量，可以有效提升大规模室内场景的点云分割结果。

Description

一种基于知识蒸馏和语义融合的点云场景分割方法

技术领域

本公开属于计算机视觉与模式识别技术领域，涉及一种基于知识蒸馏和语义融合的点云场景分割方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

3D点云场景语义分割是一个重要且具有挑战性的经典计算机视觉任务，在无人驾驶，智能家居，增强现实，虚拟现实等任务中有广泛应用。直接处理大规模场景的点云数据进行语义分割存在如何表达不规则数据的特征和如何处理大规模数据等问题。

据发明人了解，目前的改进方法为处理大规模点云数据将大规模场景划分为独立的小立方体块，送入深度图神经网络进行处理。然而划分为小立方体块后全局的上下文语义信息大量丢失，制约了特征的学习到更大感受野范围的信息，限制了语义分割的效果。

发明内容

本公开为了解决上述问题，提出了一种基于知识蒸馏和语义融合的点云场景分割方法。

根据一些实施例，本公开采用如下技术方案：

一种基于知识蒸馏和语义融合的点云场景分割方法，包括以下步骤：

将设定场景的点云输入数据，划分为多个立方体块，将局部场景立方体块中的点云，和以局部区域为中心延xy方向扩大一定倍面积的全局场景中稀疏采样后的点云，输入到双流图神经网络中；

构建基于对抗学习的知识蒸馏模型，将稠密局部分支作为老师，稀疏分支作为学生，使用对抗学习损失约束稀疏分支生成和稠密分支分布一致的特征，将细节信息传递给稀疏点云的特征；

构建二分图和动态可学习的邻接矩阵，通过同时学习稠密局部点云特征和稀疏全局点云特征的高层语义关系和空间位置关系将全局的上下文语义信息融合至局部区域，得到分割结果。

作为进一步的限定，将设定场景中的点云输入数据分为小的立方体块，对立方体块内的点云进行均匀采样，采样后送入一个第一深度图神经网络，作为稠密局部分支的输入，输入数据维度为点云的三维立体坐标。

作为进一步的限定，对每一个局部输入立方体块沿x和y轴方向分别做多倍扩展，得到全局立方体块，对全局立方体块内点云进行采样，采样后送入一个与第一深度图神经网络不共享网络参数的第二深度图神经网络，作为稀疏全局分支的输入，输入数据维度为点云的三维立体坐标。

作为进一步的限定，对于网络输出结果和分割真实标签，构造语义分割的损失函数，采用反向传播算法和随机梯度下降法来分别减小稠密局部分支和稀疏全局分支的损失函数，训练该模型。

作为进一步的限定，稀疏全局分支编码层的输出特征和稠密局部分支编码层的输出特征的坐标，对该坐标进行全局特征的插值，在其后连接两层多层感知机，作为稀疏特征生成的模拟细节信息特征输出；

将该输出和稠密局部分支编码层的输出特征，分别输入判别器中判断输入特征来自稠密分支还是来自稀疏分支特征生成。

作为进一步的限定，判别器由两层集合聚合层组成，每个集合聚合层的采样点数不变。

作为进一步的限定，构建基于最小二乘对抗学习的知识蒸馏损失函数，固定稠密局部分支的参数，使用对抗学习中的最小最大策略优化中的损失函数，同时对稀疏全局流使用语义分割损失进行监督；

对模拟细节信息特征输出的特征和稠密局部分支编码层的输出特征构建一个二分图，二分图中的每一点连接模拟细节信息特征输出的特征中的每一点作为图的边。

作为进一步的限定，采用动态学习的方式学习图的邻接矩阵，同时考虑对应二分图的两集合中的点之间的高层特征关系和空间相对位置关系，首先用两层多层感知器对输入进行特征变换，然后计算学习邻接矩阵的边的值，动态得到学习邻接矩阵的边的值后稠密局部分支的点，根据学到的图的信息进行融合全局分支中的上下文语义信息；融合语义信息后的特征输入四层的解码器得到最终语义分割结果。

一种基于知识蒸馏和语义融合的点云场景分割系统，包括：

点云数据处理模块，被配置为将设定场景的点云输入数据，划分为多个立方体块，将局部场景立方体块中的点云，和以局部区域为中心延xy方向扩大一定倍面积的全局场景中稀疏采样后的点云，输入到双流图神经网络中；

数据蒸馏模块，被配置为构建基于对抗学习的知识蒸馏模型，将稠密局部分支作为老师，稀疏分支作为学生，使用对抗学习损失约束稀疏分支生成和稠密分支分布一致的特征，将细节信息传递给稀疏点云的特征；

动态图上下文语义信息融合模块，被配置为构建二分图和动态可学习的邻接矩阵，通过同时学习稠密局部点云特征和稀疏全局点云特征的高层语义关系和空间位置关系将全局的上下文语义信息融合至局部区域，得到分割结果。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于知识蒸馏和语义融合的点云场景分割方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于知识蒸馏和语义融合的点云场景分割方法。

与现有技术相比，本公开的有益效果为：

本公开充分互补利用局部场景丰富的细节信息和全局场景丰富的上下文语义信息，同时避免增加计算量，可以有效提升大规模室内场景的点云分割结果。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是基于知识蒸馏和融合的点云场景语义分割框架；

图2是基于对抗学习的知识蒸馏模型的训练步骤；

图3是方法的基本流程图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本公开针对现有技术在3D点云场景语义分割问题中遇到的难题，引入了全局的上下文语义信息同时避免显著增加模型大小和计算量。首先引进了全局的稀疏采样的点云作为第二分支的输入来获取全局的场景上下文信息；然后为了解决全局稀疏点云中的细节信息丢失问题设计了一种基于对抗学习的知识蒸馏模型，将稠密局部分支作为老师，稀疏分支作为学生，通过设计生成器和判别器使用对抗学习损失约束稀疏分支生成和稠密分支分布一致的特征；最后为处理不规则数据的融合问题，设计了二分图和动态可学习的邻接矩阵，通过同时学习高层语义关系和位置关系将稀疏流的语义信息融合至局部区域，从而得到更精确的分割结果。充分互补利用局部场景丰富的细节信息和全局场景丰富的上下文语义信息，同时避免增加计算量，可以有效提升大规模室内场景的点云分割结果。

一种基于知识蒸馏和语义融合的点云场景分割方法，首先设计了一个双流图神经网络，输入分别为局部场景立方体块中的点云，和以局部区域为中心延xy方向扩大16倍面积的全局场景中稀疏采样后的点云。然后设计了一种基于对抗学习的知识蒸馏模型，将稠密局部分支作为老师，稀疏分支作为学生，通过设计生成器和判别器并使用对抗学习损失约束稀疏分支生成和稠密分支分布一致的特征，将细节信息传递给稀疏点云的特征。最后设计了二分图和动态可学习的邻接矩阵，通过同时学习稠密局部点云特征和稀疏全局点云特征的高层语义关系和空间位置关系将全局的上下文语义信息融合至局部区域。

如图3所示，包括步骤：

步骤S0，数据准备，将大规模室内场景中的点云输入数据分为小的立方体块(1.5m×1.5m×3.0m)，对立方体块内的点云进行均匀采样，采样点数为8192。采样后送入一个深度图神经网络，作为稠密局部分支的输入，输入数据维度为点云的三维立体坐标(x,y,z)；

步骤S1，对每一个局部输入立方体块沿x和y轴方向分别做4倍扩展，得到全局立方体块(6.0m×6.0m×3.0m)，对全局立方体块内点云进行采样，采样点数为8192，采样后送入一个与S0不共享网络参数的深度图神经网络，作为稀疏全局分支的输入，输入数据维度为点云的三维立体坐标(x,y,z)；

步骤S2，对不规则点云输入数据，构造深度图神经网络，由四层集合聚合层(编码层)和四层特征传播层(解码层)组成，如图1所示；

步骤S3，对于网络输出结果P和分割真实标签y，构造语义分割的损失函数其中B为输入立方体块，c为类别；

步骤S4，采用反向传播算法和随机梯度下降法来分别减小稠密局部分支和稀疏全局分支的损失函数L_seg，训练该模型；

步骤S5，取S2中稀疏全局分支编码层的输出特征f^g(p^g)和稠密局部分支编码层的输出特征的坐标p^l，对位置p^l进行全局特征的插值：f^g'(p^l)＝δ_interp(f^g(p^g),p^l)，其中其中N(i)为

点i的邻域；

步骤S6，取S5中输出，在其后连接两层多层感知机，作为稀疏特征生成的模拟细节信息特征输出G(f^g'(p^l))；

步骤S7，取S6输出G(f^g'(p^l))和S2中的稠密局部分支编码层的输出特征f^l(p^l)，分别输入判别器中判断输入特征来自稠密分支还是来自稀疏分支特征生成。判别器由两层集合聚合层组成，每个集合聚合层的采样点数不变；

步骤S8，构建基于最小二乘对抗学习的知识蒸馏损失函数其中G(·)

为S6中的生成器，D(·)为S7中的判别器；

步骤S9，固定稠密局部分支的参数，使用对抗学习中的最小最大策略优化S8中的损失函数，同时对稀疏全局流使用语义分割损失进行监督；

步骤S10，对S6输出的特征{g_j}和S2中的稠密局部分支编码层的输出特征{t_i}构建一个二分图，{t_i}中的每一点连接{g_j}中的每一点作为图的边；

步骤S11，采用动态学习的方式学习图的邻接矩阵，同时考虑对应二分图的两集合中的点之间的高层特征关系和空间相对位置关系。首先用两层多层感知器对输入{t_i}，{g_j}进行特征变换，然后学习邻接矩阵的边的值由公式进行计算，其中RELU_L为leaky RELU，θ(·)和/>代表两层参数不共享的多层感知器，x_i,x_j为点i,j的空间坐标位置；

步骤S12，动态得到a后稠密局部分支的点可以根据学到的图的信息进行融合全局分支中的上下文语义信息：其中N_a(i)代

表根据邻接矩阵a的i邻近点；

步骤S13，融合语义信息后的特征输入四层的解码器得到最终语义分割结果，最终的全局损失函数为其中β为超参

数，经验表明β为0.1时结果最好；

步骤S14，对于测试场景用同样方式构造数据，经过训练好的双流网络由稠密局部流得到分割结果，由图1虚线所示。

本公开通过引入稀疏的全局点云输入，增加局部点云场景语义分割时的全局语义信息，同时避免显著地增加模型大小。通过引入全局上下文语义信息，局部点云进行分割时，可扩大网络的感受野得到更精细的分割边缘，同时可通过全局语义先验帮助推断物体类别。通过设计双流网络结构，互补利用局部细节信息和全局语义信息，可以有效提高点云室内场景的分割结果。

通过引入知识蒸馏模型将稠密局部流的细节信息传递给稀疏局部流的特征。通过设计的生成器和判别器进行对抗学习训练，可以让稀疏全局特征学到稠密局部特征的特征分布，从而生成包含稠密细节信息的全局特征。

提出了使用动态学习的邻接矩阵融合全局上下文语义信息，局部特征与全局语义信息的关系由相对位置关系和高层语义特征共同描述。通过关系的学习不断更新邻接矩阵，从而使局部特征选择需要融合的全局语义信息。在最终融合时，采用自适应残差融合上下文信息，达到辅助语义分割任务的作用。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于知识蒸馏和语义融合的点云场景分割方法，其特征是：包括以下步骤：

构建二分图和动态可学习的邻接矩阵，通过同时学习稠密局部点云特征和稀疏全局点云特征的高层语义关系和空间位置关系将全局的上下文语义信息融合至局部区域，得到分割结果；

所述使用对抗学习损失约束稀疏分支生成和稠密分支分布一致的特征，将细节信息传递给稀疏点云的特征，具体为，取稀疏全局分支编码层的输出特征和稠密局部分支编码层的输出特征的坐标，对该坐标进行全局特征的插值，在其后连接两层多层感知机，作为稀疏特征生成的模拟细节信息特征输出；

将该输出和稠密局部分支编码层的输出特征，分别输入判别器中判断输入特征来自稠密分支还是来自稀疏分支特征生成；

判别器由两层集合聚合层组成，每个集合聚合层的采样点数不变；

构建基于最小二乘对抗学习的知识蒸馏损失函数，固定稠密局部分支的参数，使用对抗学习中的最小最大策略优化基于最小二乘对抗学习的知识蒸馏损失函数，同时对稀疏全局流使用语义分割损失进行监督；

2.如权利要求1所述的一种基于知识蒸馏和语义融合的点云场景分割方法，其特征是：将设定场景中的点云输入数据分为小的立方体块，对立方体块内的点云进行均匀采样，采样后送入一个第一深度图神经网络，作为稠密局部分支的输入，输入数据维度为点云的三维立体坐标。

3.如权利要求1所述的一种基于知识蒸馏和语义融合的点云场景分割方法，其特征是：对每一个局部输入立方体块沿x和y轴方向分别做多倍扩展，得到全局立方体块，对全局立方体块内点云进行采样，采样后送入一个与第一深度图神经网络不共享网络参数的第二深度图神经网络，作为稀疏全局分支的输入，输入数据维度为点云的三维立体坐标。

4.如权利要求1所述的一种基于知识蒸馏和语义融合的点云场景分割方法，其特征是：对于网络输出结果和分割真实标签，构造语义分割的损失函数，采用反向传播算法和随机梯度下降法来分别减小稠密局部分支和稀疏全局分支的损失函数，训练该模型。

5.如权利要求1所述的一种基于知识蒸馏和语义融合的点云场景分割方法，其特征是：采用动态学习的方式学习图的邻接矩阵，同时考虑对应二分图的两集合中的点之间的高层特征关系和空间相对位置关系，首先用两层多层感知器对输入进行特征变换，然后计算学习邻接矩阵的边的值，动态得到学习邻接矩阵的边的值后稠密局部分支的点，根据学到的图的信息进行融合全局分支中的上下文语义信息；融合语义信息后的特征输入四层的解码器得到最终语义分割结果。

6.一种基于知识蒸馏和语义融合的点云场景分割系统，其特征是：包括：

具体为，取稀疏全局分支编码层的输出特征和稠密局部分支编码层的输出特征的坐标，对该坐标进行全局特征的插值，在其后连接两层多层感知机，作为稀疏特征生成的模拟细节信息特征输出；

对模拟细节信息特征输出的特征和稠密局部分支编码层的输出特征构建一个二分图，二分图中的每一点连接模拟细节信息特征输出的特征中的每一点作为图的边；

7.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-5中任一项所述的一种基于知识蒸馏和语义融合的点云场景分割方法。

8.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-5中任一项所述的一种基于知识蒸馏和语义融合的点云场景分割方法。