CN111275026B

CN111275026B - 一种三维点云联合语义和实例分割的方法

Info

Publication number: CN111275026B
Application number: CN202010207999.2A
Authority: CN
Inventors: 冯建峰; 杜量
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2022-09-13
Anticipated expiration: 2040-03-23
Also published as: CN111275026A

Abstract

本发明公开了一种三维点云联合语义和实例分割的方法，包括以下步骤：通过深度传感器和图像传感器获取三维场景的点云信息，将得到的三维场景点云数据进行随机下采样得到固定点数的点云数据，将得到的下采样的点云数据输入点云特征编码网络进行特征提取，将提取到的点云特征分别输入两个不同的特征提取网络得到独立的语义特征和实例特征，将语义特征和实例特征按先语义后实例，先实例后语义一步步输入两个不同的两步长的循环卷积神经网络，分别输出实例和语义特征；本发明模拟了人脑处理语义判别和同一语义下个体实例区分时的记忆筛选机制，不仅可以同时输出多任务，准确率也高于传统单任务的方法，具有很高效的推理速度。

Description

一种三维点云联合语义和实例分割的方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种三维点云联合语义和实例分割的方法。

背景技术

基于激光雷达、深度相机和双目相机的三维场景理解技术由于其在自主驾驶和机器人场景感知等方面的重要作用，实例和语义分割是该领域应用最为广泛和重要的两个实际任务，而这两个任务有一些共同点，可以关联地加以利用来提高彼此的性能。

过去一种方法是联合使用实例和语义分割的方法是利用预测的语义标签来进一步聚类实例，或者利用预测的实例结果作为语义分割的先验知识，然而，使用不可靠的上游预测作为先验信息可能会影响下游任务，因此，这种的传统方法是次优的。

过去另一种方法是直接用两个任务的高维编码来做特征融合，进一步预测实例和语义分割的结果，尽管语义分割和实例分割有着共同的目标，即检测识别特定的信息区域，但它们具有不同的任务导向，而且它们所包含的部分信息可能是相互矛盾的，实例分割主要是从不同的个体对象中提取点特征进行区分，而语义分割提取的特征用于对不同类别的点进行分类但不区分个体，因此两个任务的特征中必然包含矛盾的部分，因此，特征选择是交互过程中必不可少的一步。

实际上，这样一种特征信息相互辅助的过程中，与人类的场景感知中的记忆筛选是一致的，语义和实例分割是人类场景感知中最重要的视觉任务，对于人类来说，语义感知主要是从场景中的对象中提取高级语义特征，而实例分割则更注重挖掘更初级的视觉特征，这两个过程可以相互帮助，具体来说，从高级特征到初级特征的映射对于实例分割是有益的，例如，如果我们知道一个对象的类别，我们脑海中将获得该类别模糊形状和颜色信息(初级特征)，这有助于纠正由于环境光而难以看到整个对象的实例分割结果中的错误，相反，如果我们在不知道类别的情况下看到了一些相似的颜色轮廓初级特征，那么我们就可以在属于同一类别的对象之间建立联系，从而帮助我们快速准确地完成语义分割推理。

最后，综上看来，这两个过程不是独立的，而是耦合的。然而，人类很少受到这种不同的任务导向信息的干扰，因为人脑能够快速、自适应地选择有用的信息，筛选遗忘无用的信息，人类场景感知的这一特性启发我们有必要建立一个多任务耦合的网络框架，通过循环卷积神经网络的记忆门控制单元来模拟人类场景感知的信息筛选过程。

发明内容

针对现有技术的不足，本发明提供了一种三维点云联合语义和实例分割的方法，解决了背景技术中提到的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种三维点云联合语义和实例分割的方法，包括以下步骤：

S1、通过深度传感器和图像传感器获取三维场景的点云信息；

S2、将步骤S1得到的三维场景点云数据进行随机下采样得到固定点数的点云数据；

S3、将步骤S2得到的下采样的点云数据输入点云特征编码网络进行特征提取；

S4、将步骤S3提取到的点云特征分别输入两个不同的特征提取网络得到独立的语义特征和实例特征；

S5、将步骤S4的语义特征和实例特征按先语义后实例，先实例后语义一步步输入两个不同的两步长的循环卷积神经网络，分别输出实例和语义特征；

S6、将步骤S5得到的语义特征进行解码得到每个点云的语义标签预测，实例特征解码得到每个点云的实例标签；用真值标签信号与预测信号进行损失函数计算，回传损失函数梯度更新网络权重直至网络训练完成。

进一步地，所述深度传感器为激光雷达，RGB-D深度相机，双面相机其中的一种，以获取场景三维坐标和颜色信息。

进一步地，所述特征编码网络为利用神经网络对输入的数据或特征进行编码，以得到数据和特征更为高级抽象的编码。

进一步地，所述循环卷积神经网络为一个两步长的循环卷积神经网络，且对于语义分割的特征编码，先将实例的特征作为第一步输入循环卷积神经网络，再将语义的特征作为第二步输入循环卷积神经网络，利用循换神经网络的门控机制，筛选出实例特征中有利于语义分割的信息作为语义特征的补充信息并做进一步融合，筛选出语义特征中有利于实例分割的信息作为实例特征的补充信息并做进一步融合。

本发明与现有技术相比具备以下有益效果：本发明模拟了人脑处理语义判别和同一语义下个体实例区分时的记忆筛选机制，不仅可以同时输出多任务，准确率也高于传统单任务的方法，具有很高效的推理速度。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种三维点云联合语义和实例分割的方法，包括以下步骤：

S1、通过深度传感器(深度传感器为激光雷达，RGB-D深度相机，双面相机其中的一种，以获取场景三维坐标和颜色信息)和图像传感器获取三维场景的点云信息；

S2、将步骤S1得到的三维场景点云数据进行随机下采样(随机下采样，一是为了满足神经网络固定长度的信息输入，二是为了降低计算资源，进行高效的网络训练和前向预测。由于三维点云存在大量的冗余结构信息，所以随机下采样依然可以保证场景的关键轮廓和颜色信息)得到固定点数的点云数据；

S3、将步骤S2得到的下采样的点云数据输入点云特征编码网络(特征编码网络为利用神经网络对输入的数据或特征进行编码，以得到数据和特征更为高级抽象的编码)进行特征提取；

S5、将步骤S4的语义特征和实例特征按先语义后实例，先实例后语义一步步输入两个不同的两步长的循环卷积神经网络(循环卷积神经网络为一个两步长的循环卷积神经网络，且对于语义分割的特征编码，先将实例的特征作为第一步输入循环卷积神经网络，再将语义的特征作为第二步输入循环卷积神经网络，利用循换神经网络的门控机制，筛选出实例特征中有利于语义分割的信息作为语义特征的补充信息并做进一步融合，筛选出语义特征中有利于实例分割的信息作为实例特征的补充信息并做进一步融合)，分别输出实例和语义特征；

工作时，本发明通过步骤S1到S6的作用，利用神经网络，通过对高维度点云语义和实例分割特征的信息进行基于循环卷积神经网络门控单元的筛选融合，实现准确性更高，同时保证速度高效不受影响的三维点云联合语义和实例分割。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种三维点云联合语义和实例分割的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种三维点云联合语义和实例分割的方法，其特征在于：所述深度传感器为激光雷达，RGB-D深度相机，双面相机其中的一种，以获取场景三维坐标和颜色信息。

3.根据权利要求2所述的一种三维点云联合语义和实例分割的方法，其特征在于：所述特征编码网络为利用神经网络对输入的数据或特征进行编码，以得到数据和特征更为高级抽象的编码。

4.根据权利要求3所述的一种三维点云联合语义和实例分割的方法，其特征在于：所述循环卷积神经网络为一个两步长的循环卷积神经网络，且对于语义分割的特征编码，先将实例的特征作为第一步输入循环卷积神经网络，再将语义的特征作为第二步输入循环卷积神经网络，利用循环卷积神经网络的门控机制，筛选出实例特征中有利于语义分割的信息作为语义特征的补充信息并做进一步融合，筛选出语义特征中有利于实例分割的信息作为实例特征的补充信息并做进一步融合。