CN113850270A

CN113850270A - 基于点云-体素聚合网络模型的语义场景补全方法及系统

Info

Publication number: CN113850270A
Application number: CN202110422598.3A
Authority: CN
Inventors: 陈小康; 唐嘉祥; 王靖博; 曾钢
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-12-28
Anticipated expiration: 2041-04-15
Also published as: CN113850270B

Abstract

本发明公布了一种基于点云‑体素聚合网络模型的语义场景补全方法，建立点云‑体素聚合网络模型作为三维图像语义场景补全深度神经网络模型，包括点云‑体素双路编码器和以语义传播模块为基本单元构成的解码器；点云‑体素双路编码器以点云模型作为主干，使用浅层的三位卷积神经网络作为体素分支，将二维单目深度图像转换为三维点云，提取点云与体素两种数据模态中互补的特征，并对特征进行融合；且保留稠密体素中的局部结构特征；再通过解码器对提取特征逐层上采样，恢复三维场景的几何结构以及语义信息，最终对应到体素中得到三维场景的结构与语义。本发明方法能够高效且准确地完成语义场景补全任务。

Description

基于点云-体素聚合网络模型的语义场景补全方法及系统

技术领域

本发明涉及一种应用于语义场景补全任务的深度神经网络模型，具体涉及一种基于点云-体素双路聚合深度神经网络模型的语义场景补全方法及系统，用于从单目深度图像中恢复三维场景的结构以及图像的语义信息，属于计算机视觉中的三维视觉技术领域。

背景技术

语义场景补全(Semantic Scene Completion，SSC)任务指的是从通过深度传感器采集，如Microsoft Kinect，LiDAR等获取的单目深度图像中恢复三维场景，包括场景补全以及语义分割这两个子任务。其中，场景补全任务可以从单目的深度图观测中恢复三维场景的结构，例如补全被遮挡的物体的形状；语义分割任务可以对体素化的三维场景中的每个体素的语义类别进行预测，例如将室内场景分割为地面、墙壁、家具等不同部分。文献[1](Shuran Song,Fisher Yu,Andy Zeng,Angel X Chang,Manolis Savva,and ThomasFunkhouser.Semantic scene completion from a single depth image.In CVPR,pages1746–1754,2017)中提出的SSCNet首次记载了SSC任务并证明了场景补全以及语义分割这两个任务是高度相关的，同时学习这两个任务可以获得更好的效果。

后续的工作对这一任务进行了进一步的探索，主要使用三维卷积神经网络模型(3DConvolutional Neural Network，3D CNN)进行语义场景补全，这些方法先将二维的深度图编码为三维的截断符号距离函数(Truncated Signed Distance Function，TSDF)矩阵来表示三维场景，再通过监督学习训练3D CNN对其中的每一个体素进行语义标签的预测。但是，SSC任务的数据中通常存在大量的可见空气体素(例如在NYUCAD数据集中，可见空气体素与其他体素的比例约为9：1)，这些体素的类别可以通过相机参数直接判断，也不参与最后评价指标的运算，而3D CNN只能同时对所有体素进行运算，不能只对部分体素进行预测，因此现有的基于体素的方法都存在着计算冗余的问题，即对已知的空气体素进行了不必要的运算，导致运算效率较低，并且需要占用大量的显存。

文献[2](Zhong and Gang Zeng.Semantic point completion network for 3dsemantic scene completion.ECAI,2020.)中提出利用点云的方法进行语义场景补全，由于点云是一种稀疏的表面模型，通过提取三维空间中观测到的表面以及被遮挡的区域，避免了在可见空气体素上的计算，从而具有更高的计算效率，占用的显存更少，部分地解决了上述的计算冗余问题。但由于点云数据不具有规则的空间结构，基于点云的方法无法直接对点云数据应用卷积操作，导致难以有效提取三维图像的语义场景局部结构信息，语义场景补全效果也相比基于体素的方法较差。

发明内容

为了克服上述现有技术存在的不足，本发明提供一种基于点云-体素聚合网络模型的语义场景补全方法及系统，创建应用于三维图像语义场景补全任务的深度神经网络模型，具体采用的点云-体素双路深度神经网络模型是一种高效且准确的深度学习模型，用于从单目深度图像中恢复三维场景的结构以及语义信息，能够更好地完成SSC任务。

基于体素的方法可以更好地提取稠密体素中的结构信息，但计算量较大且对于空白体素有冗余计算；基于点云的方法可以避免冗余计算，但难以较好提取局部结构信息。本发明提出了点云-体素聚合网络模型，具有两种方法的优势，在点云分支保证较高的计算效率的同时使用体素分支提取局部结构信息，并提出了各向异性聚合模块融合特征，最后通过语义传播模块输出分类结果。

本发明的技术方案是：

一种基于点云-体素聚合网络模型的语义场景补全方法，通过建立三维图像语义场景补全深度神经网络模型，将二维单目深度图像转换为三维点云；提取两种数据模态中互补的特征，并对特征进行融合；使用提取的特征进行预测，得到每个三维点的语义结果，最终对应到体素中得到三维场景的结构与语义；三维图像语义场景补全深度神经网络模型包括点云-体素双路编码器和以语义传播模块为基本单元构成的解码器。详细的网络结构如图2所示，点云-体素双路编码器在以高效的点云模型作为主干的同时，使用一个浅层的三位卷积神经网络作为体素分支提取局部结构信息，并利用各向异性体素聚合模块对特征进行融合，在保持整个网络具有较高的计算效率的同时尽可能保留稠密体素中的局部结构特征，从而取得更好的效果，最后再通过解码器对提取的特征逐层上采样，恢复三维场景的几何结构以及语义信息。

基于点云-体素聚合网络模型的语义场景补全方法包括如下步骤：

A.通过深度传感器采集二维单目深度图像，根据输入的深度图生成三维空间的点云表示和体素表示；

A1.通过相机参数，将二维单目深度图像(深度图)投影到三维空间，并对三维空间按照一定的空间分辨率进行量化(Quantization)，得到以体素的形式(体素空间)表示的三维场景；

A2.对体素空间进行进一步编码，计算其中每一个体素的截断符号距离函数TSDF矩阵以及标准化的高度信息；

A3.根据TSDF矩阵，提取可见表面以及被遮挡的体素，将其转换为点云表示。

B.构建三维图像语义场景补全深度神经网络模型的点云-体素双路编码器；通过点云-体素双路编码器提取特征；

点云-体素双路编码器包括点云分支和体素分支；

B1.使用体素分支对A1生成的体素表示进行卷积提取体素特征；

B2.使用点云分支对A3生成的点云表示提取点云特征；

B3.通过各向异性聚合模块，将体素特征融合到点云特征中。

C.构建三维图像语义场景补全深度神经网络模型的解码器；

C1.通过多层语义传播模块将融合的特征逐层上采样，最后输出每一个输入的点云的分类结果，包括场景补全(是否为空气)结果以及语义分割(非空气时所属的具体语义类别)结果。

C2.根据点云与体素(不包含可见空气)的一一对应关系，将点云的预测结果对应到体素的预测结果，从而获得使用体素表示的三维场景结构及其语义分割结果。

D.在数据集上通过监督学习的方法对构建的三维图像语义场景补全深度神经网络模型进行训练，直到模型收敛到较好的结果。

利用训练好的三维图像语义场景补全深度神经网络模型，实现对待预测的二维单目深度图像进行语义场景补全。

在步骤A中，我们首先根据输入的深度图数据以及相机参数将二维深度投影到三维空间，从而得到观测到的表面的位置以及被遮挡区域的位置。通过按照一定的空间分辨率进行量化，我们得到一个用三维矩阵表示的固定分辨率的体素空间。接下来，我们对其进行进一步的编码，计算体素空间中的每一个体素(包括表面以及被遮挡的部分)距离最近的可观测表面的截断距离(TSDF值)，得到TSDF矩阵，并将标准化的高度作为额外的特征，作为体素分支的输入。根据TSDF值，我们可以将体素空间中的每一个体素进行分类，TSDF为0的位置为可见表面体素，TSDF为正的位置为可见空气体素，TSDF为负的位置为被遮挡的体素。其中，可见空气体素的分类是已知的，并且不会参与评价指标的运算。因此，我们在点云表示中将这一部分体素舍弃，只提取可见表面与被遮挡的体素转换为点云分支的输入，以避免冗余的计算。

在步骤B中，我们通过提出的点云-体素双路编码器对输入进行特征提取。体素分支使用浅层3D CNN提取局部结构特征；点云分支使用层次化的多层感知机提取全局特征，神经网络的层数包含多个层次，每个层次都对点云进行降采样，并提高特征的维度。在第一个层次，我们提出了各向异性聚合模块，将局部的体素特征与全局的点云特征进行融合。

在步骤C中，我们提出了语义传播模块作为解码器的基本单元。语义传播模块首先在相邻的深层与浅层的点云之间根据欧式距离构建k-近邻图结构，再根据每两个相邻的点的特征预测连接边的权重，最后根据此权重进行从深层到浅层的特征传播。相比于直接使用欧氏距离作为边的权重的方法，我们的方法鼓励特征在具有类似语义信息的点之间传播，并且通过可学习的方法进行显示监督，以更准确地学习边的权重。解码器逐层将深层特征传播到浅层特征，并逐渐上采样以恢复点的数量，最终输出每一个输入点对应的语义标签，再将点云对应到体素空间以最终得到使用体素表示的三维场景结构及其语义分割结果。

本发明具体实现了一种基于点云-体素聚合网络模型的语义场景补全系统，包括：点云生成模块、编码器模块、解码器模块(语义传播模块)；编码器模块包括点云分支、体素分支以及各向异性聚合模块。点云生成模块用于将二维单目深度图像转换为三维点云；编码器模块用于分别通过点云分支与体素分支提取点云和体素这两种数据模态中互补的特征，并通过各向异性聚合模块对特征进行融合；解码器模块使用提取到的特征进行预测，得到每个点的语义结果，最终对应到体素中，得到三维场景的结构与语义。

与现有技术相比，本发明的有益技术效果是：

本发明提供一种应用于语义场景补全任务的深度神经网络模型方法，采用的点云-体素双路深度神经网络模型，用于从单目深度图像中恢复三维场景的结构以及语义信息，可以更准确的从深度图重建三维场景，在SSC的预测体素是否为实体以及实体体素的语义标签两项任务上都取得了优于现有技术的效果。本发明的技术优势体现在：

(一)提出了点云-体素聚合网络模型，首次将点云-体素方法用于语义场景补全任务，包括通过点云生成模块将单目深度图转换为三维点云表示，再通过点云-体素双路编码器以及各向异性聚合模块提取特征，最后通过语义传播模块构成的解码器对每个点进行语义预测以得到三维场景的结构与语义。本发明方法结合了基于点云方法的低显存需求与基于体素方法对局部结构特征的建模能力，并且取得了较好的效果。

(二)本发明设计了各向异性聚合模块以及语义传播模块，分别用于双路编码器融合体素分支提取的局部特征以及点云分支提取的全局特征，以及解码器仅在语义相似的点之间进行特征传播。

附图说明

图1是本发明提出的基于点云-体素网络模型进行语义场景补全的方法与现有基于体素的方法的流程对比示意图；

其中，实线表示本发明基于点云-体素的方法流程；虚线表示基于体素的方法流程。

图2是本发明采用的网络模型的结构示意图；

其中，右上角小图是点云生成模块的结构示意图；SA(Set Abstract)代表降采样层；SP(Semantic-aware Propagation)代表语义传播层。

图3是语义传播模块的示意图；

其中，(a)表示基于距离的传播，会导致点P受到邻近的其他语义类别的干扰；(b)表示语义传播，可以通过预测边权避免这种情况；点的填充颜色代表不同的真实语义类别，边界颜色代表根据特征预测的语义类别；大小代表不同层次，其中较大的点来自于更深的层次；箭头代表建立的边，其中虚线代表较小的边权。

具体实施方式

下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚完整的描述。

具体实施时，本发明利用应用于语义场景补全任务的深度神经网络模型方法实现了一种语义场景补全系统，包括：点云生成模块、编码器模块、解码器模块(语义传播模块)；编码器模块包括点云分支、体素分支以及各向异性聚合模块。点云生成模块将二维单目深度图像转换为三维点云；编码器模块分别通过点云分支与体素分支提取两种数据模态中互补的特征，并通过各向异性聚合模块对特征进行融合；解码器模块使用提取的特征进行预测，得到每个点的语义结果，最终对应到体素中得到三维场景的结构与语义。

首先是点云生成模块，基于体素的方法通常将深度图转换为三维体素空间的TSDF矩阵，并直接在三维体素空间上进行运算。但根据遮挡关系，三维空间中其实存在三种不同的体素，分别为(1)观测到的物体表面体素，可以通过深度图直接获得；(2)被遮挡的体素，位于表面体素后，包含不可见的空气体素以及需要补全的非空体素；以及(3)相机与观测到的物体表面之间的空气体素(后文称之为可见空气体素)。其中，可见空气体素对于SSC任务是没有帮助的，这些体素也不会参与最后评测指标的运算。因此，点云生成模块仅将可见空气体素之外的两种体素转化为对应的点云表示，作为点云分支的输入，如图2上角所示。为了更好地提取空间信息，除了空间中的三维坐标，输入的点云还包含了TSDF特征以及标准化的高度特征，组成五维向量f_i＝(x_i,y_i,z_i,t_i,h_i)。其中(x_i,y_i,z_i)为根据点云质心标准化的三维坐标，t_i为此处的TSDF值，h_i为直接使用体素空间最大高度标准化的高度。

接下来是编码器部分，包括点云分支、体素分支以及各向异性聚合模块。如图1所示，点云分支使用类似Pointnet++的多层次结构，共包含四个层次，每个层次使用最远点采样的方法对点云进行降采样以获得更高的特征维度。但考虑到点云数据稀疏且不规则的结构，编码器的点云分支较难对细节的结构特征进行建模，因此我们设计了并行的体素分支，只使用两层三维卷积，直接从三维体素空间的TSDF矩阵中提取浅层的局部特征，这样只需要较小的计算量即可使得每个体素具有足够大的感受野用来编码局部特征。为了对点云特征与体素特征进行融合，我们设计了各向异性聚合模块，如图1上方部分所示，对于降采样后的每个中心点p_i＝(x_i,y_i,z_i)，我们定义三个分别以x,y,z轴为长轴椭球感受野。以x轴为例，p_i的感受野可以定义为：

其中r为短轴的感受野半径，k>1为长轴的伸长比例，v_j为第j个体素，其在三维空间中的坐标为(x_j,y_j,z_j)。y,z轴的感受野可以用类似的方法定义。从模式识别的角度，各向异性的感受野可以在三个主要方向上被不同的模式激活，相比各向同性的感受野更加灵活与有效。之后我们可以通过以上定义的感受野对特征进行聚合：

其中

为p_i融合后的特征，

为p_i的点云特征，

为v_j的体素特征，φ_d为方向d上的多层感知机函数，用于提取非线性激活特征，max表示我们使用极大池化来保留方向d上的感受野N_d(i)中最大的激活。各向异性聚合模块可以使稀疏的中心点从稠密的体素中聚合局部的结构特征，从而可以对接下来的场景补全与语义分割任务起到积极的效果。此处的各向异性聚合模块可以嵌入到编码器的任意层次，但根据实验结果，我们将其嵌入第一个层次即可得到较好的效果与计算效率。

在解码器模块，我们需要逐层次恢复编码器降采样的点云，对应于编码器的每个层次，我们设计了语义传播模块作为解码器的每个层次的基本结构。假设我们共有L个层次，并且定义

为输入的点云及其特征，则可以设第l层次的输出点云为

由于最远点采样的降采样方法仅从上一层的点中采样，X^(l+1)中的点一定也在上一层的X^(l)中。为了从X^(L)中恢复X⁽⁰⁾中的所有输入点，我们需要逐层对特征从深层的中心点向浅层的邻域点进行传播，广义的特征传播可以用如下公式表示：

其中

为

在X^(l+1)中的k近邻，

为特征

相对于

的权重。我们通过计算

与

的相似度来确定

但由于两个点位于不同的层次，无法直接对

与

计算相似度。考虑到

也必定出现在X^(l)中，我们可以作为代替通过可学习的方法来计算

与

的相似度来确定

其中σ为sigmoid函数，φ为多层感知机，||为特征通道拼接操作。我们使用真值显示的监督学习到的

即

与

属于同一类别时设置真值为1，否则为0。通过语义传播模块，网络将鼓励语义相似的特征传播，从而弱化了不同类别的邻域点对语义分割任务的干扰，如图3示。

最后，我们描述训练过程中使用的损失函数。损失函数包括两个部分，即SSC任务的损失函数L_SSC以及语义传播模块的损失函数L_SP。其中，SSC的损失函数为对每个体素的加权交叉熵：

其中，m_i,j,k表示(i,j,k)坐标处的体素是否为可见空气，若为可见空气则设为0，否则为1，y_i,j,k为真值标签，p_i,j,k为模型预测的标签，N_valid＝∑_i,j,km_i,j,k为所有非可见空气体素的总数，L_CE为交叉熵损失函数。语义传播损失函数用来监督学习的边权

可以定义为：

其中N_pairs为参与运算的点对的总数，|X^(l)|为第l层次的点的数量，

为上文定义的边权的真值。模型整体的训练损失函数为两个损失函数的加权：

L＝L_SSC+λL_SP

其中λ＝0.5。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于点云-体素聚合网络模型的语义场景补全方法，建立点云-体素聚合网络模型作为三维图像语义场景补全深度神经网络模型，将二维单目深度图像转换为三维点云；提取点云与体素两种数据模态中互补的特征，并对特征进行融合；再使用提取的特征进行预测，得到每个三维点的语义结果，最终对应到体素中得到三维场景的结构与语义；

三维图像语义场景补全深度神经网络模型包括点云-体素双路编码器和以语义传播模块为基本单元构成的解码器；所述点云-体素双路编码器以点云模型作为主干，同时使用浅层的三位卷积神经网络作为体素分支，用于提取局部结构信息，并对特征进行融合，且保留稠密体素中的局部结构特征；再通过解码器对提取的特征逐层上采样，恢复三维场景的几何结构以及语义信息；

所述基于点云-体素聚合网络模型的语义场景补全方法包括如下步骤：

A.通过深度传感器采集二维单目深度图像，根据二维单目深度图像生成三维空间的体素表示；并计算得到三维空间中每一个体素的截断符号距离函数TSDF矩阵以及标准化高度信息；根据TSDF矩阵，提取可见表面以及被遮挡的体素；再转换为点云表示；

点云-体素双路编码器包括点云分支和体素分支；使用体素分支对生成的体素表示进行卷积，提取体素特征；使用点云分支对生成的点云表示提取点云特征；再将体素特征融合到点云特征中；

C.构建三维图像语义场景补全深度神经网络模型的解码器；包括：

C1.将融合的特征逐层上采样，最后输出每一个输入的点云的分类结果，包括场景补全结果和语义分割结果；

C2.根据点云与体素的一一对应关系，将点云的预测结果对应到体素的预测结果，从而获得使用体素表示的三维场景结构及其语义分割结果；

利用训练好的三维图像语义场景补全深度神经网络模型，即实现基于点云-体素聚合网络模型的语义场景补全。

2.如权利要求1所述基于点云-体素聚合网络模型的语义场景补全方法，其特征是，步骤A具体包括：

A1.通过相机参数，将二维单目深度图像投影到三维空间，并对三维空间按照一定的空间分辨率进行量化，得到以体素的形式表示的三维场景；

A3.根据TSDF矩阵，提取可见表面以及被遮挡的体素，并转换为点云表示。

3.如权利要求1所述基于点云-体素聚合网络模型的语义场景补全方法，其特征是，在步骤A中，根据输入的深度图数据以及相机参数将二维深度投影到三维空间，得到观测到的表面的位置和被遮挡区域的位置。

4.如权利要求3所述基于点云-体素聚合网络模型的语义场景补全方法，其特征是，在步骤A中，根据TSDF值，将体素空间中的每一个体素进行分类，TSDF为0的位置为可见表面体素，TSDF为正的位置为可见空气体素，TSDF为负的位置为被遮挡的体素；在点云表示中舍弃可见空气体素，只提取可见表面与被遮挡的体素转换为点云分支的输入。

5.如权利要求1所述基于点云-体素聚合网络模型的语义场景补全方法，其特征是，在步骤B中，通过点云-体素双路编码器对输入进行特征提取；体素分支具体使用浅层3D CNN提取局部结构特征；点云分支具体使用层次化的多层感知机提取全局特征；神经网络的层数包含多个层次，每个层次均对点云进行降采样，并提高特征的维度。

6.如权利要求1所述基于点云-体素聚合网络模型的语义场景补全方法，其特征是，在步骤C中，解码器的基本单元语义传播模块首先对相邻的深层与浅层的点云之间，根据欧式距离构建k-近邻图结构，再根据每两个相邻的点的特征预测连接边的权重，最后根据权重进行从深层到浅层的特征传播；解码器逐层将深层特征传播到浅层特征，并逐渐上采样以恢复点的数量，最终输出每一个输入点对应的语义标签。

7.如权利要求1所述基于点云-体素聚合网络模型的语义场景补全方法，其特征是，对特征进行融合，将体素特征融合到点云特征中，具体表示为：