CN110827295A

CN110827295A - 基于体素模型与颜色信息耦合的三维语义分割方法

Info

Publication number: CN110827295A
Application number: CN201911051686.6A
Authority: CN
Inventors: 齐越; 刘麟祺; 包永堂; 王晨
Original assignee: Qingdao Research Institute Of Beihang University; Beihang University
Current assignee: Qingdao Research Institute Of Beihang University; Beihang University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-21

Abstract

本发明所述基于体素模型与颜色信息耦合的三维语义分割方法，由三维CNN网络提取三维TSDF体素信息并结合三维重建过程中采集到的RGB图像，通过通道信息融合策略而直接实现端到端的三维语义分割，从而实现为三维重建技术之后的相关AR应用提供有力支持。三维语义分割方法包括有以下实施阶段：1)、二维RGB图像处理阶段；2)、三维TSDF体素模型处理阶段；3)、双通道信息融合及三维信息处理阶段。对于二维及三维信息进行融合；利用三维卷积神经网络进行最终的特征提取，从而得到最终的体素级别语义分割结果。

Description

基于体素模型与颜色信息耦合的三维语义分割方法

技术领域

本发明涉及一种应用于计算机视觉领域的新型三维语义分割方法，属于虚拟现实技术领域。

背景技术

目前利用深度学习实现的语义分割方法，主要分为基于RGB图像的二维分割与针对点云基于三维模型的语义分割。

基于二维RGB图像处理的准确率较高，但是由于二维单目相机尺度的不确定性，二维图像先天性地缺少了相关物体的深度信息，而且二维RGB图像易受到光照条件等因素的影响，使得整体分割方法具有较为明显的局限性，难以充分综合利用图像的各方面特征信息。

现在较为流行的三维语义分割方法，基于点云处理时的噪声较大、且点云具有无序性以及旋转不确定性等缺点，使得相关的点云语义分割方法虽然能一定程度上利用了空间深度信息，但是语义分割的效果仍然不尽如人意，无法满足多层次的VR、AR应用的需求，无法向VR、AR设备提供足够的场景交互支持。

当前较为常见的基于深度相机的三维重建技术，在三维重建后仅生成了场景的mesh模型而缺少相应的场景语义信息，使得用户与场景的交互受限。同时，三维重建技术中所生成的场景模型却存储于TSDF体素模型中，此类针对体素级语义分割方法的缺失，直接造成了现有三维重建模型的语义分割障碍。

有鉴于此，特提出本专利申请。

发明内容

本发明所述基于体素模型与颜色信息耦合的三维语义分割方法，其目的在于解决上述现有技术存在的问题而基于三维CNN网络提取三维TSDF体素信息，结合三维重建过程中采集到的RGB图像，通过通道信息融合策略而直接实现端到端的三维语义分割，从而实现为三维重建技术之后的相关AR应用提供有力支持。

为实现上述发明目的，本申请所述的三维语义分割方法，主要采取三维卷积神经网络与二维卷积神经网络相耦合的方式，由三维卷积神经网络处理三维TSDF体素信息，由二维卷积神经网络处理二维的RGB图像信息，利用attention机制将二维与三维通道的信息融合并提取有效特征。并且，在二维通道中，对多视角下的RGB特征进行加权融合，以提高了多层次信息的利用率。

基于体素模型与颜色信息耦合的三维语义分割方法主要包括有以下实施阶段：

1)、二维RGB图像处理阶段

针对于多个视角下的RGB图像，将多视角下的RGB图像送入backbone网络中，提取高维度图像二维特征信息；

获得当前帧映射到世界坐标系下的相机姿态信息；

利用RGB通道选择模块对于不同视角下的RGB二维特征赋予不同的权重；

2)、三维TSDF体素模型处理阶段

首先，进行前端三维模型重建；

其次，采取符号距离函数对整个TSDF体素模型进行计算；

然后，使用残差模块初步提取三维特征；

将处理后的TSDF体素模型数据与上述经过RGB通道选择模块提取后的特征，均利用残差模块进行处理，以初步提取其相关的三维特征；

3)、双通道信息融合及三维信息处理阶段

对于二维及三维信息进行融合；

利用三维卷积神经网络进行最终的特征提取，从而得到最终的体素级别语义分割结果。

进一步地，所述的二维RGB图像处理阶段，在获得当前帧映射到世界坐标系下的相机姿态信息中，利用三维重建或者SFM技术通过多视角几何方法进行计算。

在所述的RGB通道选择模块中，首先，将输入特征进行全局池化；然后，将全局池化后的结果利用1*1大小的卷积层进一步提取特征；之后，利用batch normalization规范化特征的相关分布；最后，通过sigmoid激活函数处理，得到该模块提取出来的不同视角RGB特征的权重，并与输入特征进行点乘操作，得到输入特征加权后的结果。

进一步地，所述的三维TSDF体素模型处理阶段，在前端三维重建过程中，将输入的RGB图像中的depth信息融入到TSDF模型中，以作为本申请所采用三维网络的输入。

在残差模块中，首先，将输入特征首先通过1*1的卷积层进行降维，以减少整个模型的参数量、加速模型训练，并经过ReLU激活函数激活后送入3*3的卷积层进行特征提取；然后，利用1*1的卷积层进行升维恢复到原始的维度；最后，将输入特征与升维后的特征相加得到残差模块处理后的特征。

进一步地，所述的双通道信息融合及三维信息处理阶段，在双通道信息融合模块中，首先，将RGB特征以及体素特征叠加在一起；然后，利用常用的3*3的卷积层+bacthnormalization+ReLU激活函数，针对叠加后的信息进行初步的信息提取；之后，进行全局池化，提取全局特征，通过1*1卷积层+ReLU激活函数+1*1卷积层进行进一步处理；最后，利用sigmoid激活函数得到各个特征通道相应的权重，与3*3卷积层处理后的特征点乘得到加权后的特征，再与未加权的特征相加得到双通道信息融合后所提取到的特征信息。

综上，本申请所述三维语义分割方法具有的优点是：针对三维重建结果进行了后续针对性处理，通过利用三维重建过程中的颜色图、深度图、相机姿态以及最终的模型结果，实现了端到端的三维语义分割。通过通道信息融合，利用二维以及三维的多维度信息和注意力机制设计的通道选择模块，增加不同权重作为最终语义分割结果提供有效、直接和全面的指导。最终为三维重建的模型处理后提供了体素级别的标签，可以为空间中每一个位置分类，从而不仅能得到室内场景模型，而且知道模型每一部分是什么物体，为之后的相关AR交互应用提供了方便。

附图说明

图1是三维语义分割方法流程示意图；

图2是RGB通道选择模块示意图；

图3是前端三维重建流程示意图；

图4是二维TSDF模型示意图；

图5是残差模块示意图；

图6是双通道信息融合模块示意图；

图7是卧室内部场景三维模型示意图；

图8是卧室内部场景语义分割结果示意图；

图9是客厅内部场景三维模型示意图；

图10是客厅内部场景语义分割结果示意图。

具体实施方式

下面结合附图和实施示例对本发明作进一步详细地描述。

本申请所述基于体素模型与颜色信息耦合的三维语义分割方法，利用三维卷积神经网络提取TSDF体素信息，能够较好地将场景内的物体识别分割出来。但由于三维重建后得到的TSDF模型中的数据为稀疏结构，并不利于三维卷积神经网络的学习，因此采取对符号距离函数进行扩展计算以得到每个像素的值，以提高三维卷积神经网络对体素模型的提取效率，最终获得每个体素都带有语义标签的模型结果，从而实现用户与环境的更大自由度的场景交互。

如图1所示的三维语义分割方法流程示意图，所述的三维语义分割方法主要包括有以下实施阶段：

1、二维RGB图像处理阶段

针对于多个视角下的RGB图像，可采取多种高效提取图像特征的网络结构设计，如VGG网络、ResNet网络、MobileNet系列网络、ShuffleNet系列网络以及Xception网络等。

首先，将多视角下的RGB图像送入这些成熟的backbone网络中，快速提取其相关的高维度图像特征，为整体的语义分割网络提供有效的二维特征信息。

其次，利用三维重建或者SFM技术，通过多视角几何方法计算获得当前帧到世界坐标系下的相机姿态信息，建立当前帧映射到世界坐标系下的投影。

最后，利用RGB通道选择模块对于不同视角下的RGB二维特征赋予不同的权重，以更好地支持卷积神经网络的优化方向，得到更加准确的结果并加速后续的迭代过程。

如图2所示的RGB通道选择模块示意图。

在RGB通道选择模块中，首先，将输入特征进行全局池化；然后，将全局池化后的结果利用1*1大小的卷积层进一步提取特征；之后，利用batch normalization规范化特征的相关分布；最后，通过sigmoid激活函数处理，得到该模块提取出来的不同视角RGB特征的权重，并与输入特征进行点乘操作，得到输入特征加权后的结果。

2、三维TSDF体素模型处理阶段

首先，前端三维重建。

如图3所示的前端三维重建流程示意图，将输入的RGB图像中的depth信息融入到TSDF模型中，以作为本申请所采用三维网络的输入。即先将RGB图像作为二维网络的输入以计算得到的每一帧相机姿态，再从二维网络到三维网络进行映射的变换。

其次，采取符号距离函数对整个TSDF体素模型进行计算。

由于在三维重建后获得的TSDF模型为截断符号距离函数，在空间中具有稀疏结构的特点，因此采取符号距离函数针对整个体素模型进行计算，以得到整个空间的稠密数据，从而方便三维卷积神经网络的应用。

如图4所示的是二维TSDF模型，而三维网络输入的是三维重建完成后得到的三维TSDF模型，TSDF模型网格中的数值代表离重建场景表面的距离，网格中从正到负的穿越点代表重建的表面。

然后，使用残差模块初步提取三维特征。

即将处理后的TSDF体素模型数据与上述经过RGB通道选择模块提取后的特征，均利用残差模块进行处理，以初步提取其相关的三维特征。

如图5所示的残差模块示意图。

首先，残差模块将输入特征首先通过1*1的卷积层进行降维，以减少整个模型的参数量、加速模型训练，并经过ReLU激活函数激活后送入3*3的卷积层进行特征提取；

然后，利用1*1的卷积层进行升维恢复到原始的维度；

最后，将输入特征与升维后的特征相加得到残差模块处理后的特征。

由于残差模块引入了高速通路，从而解决了当网络加深时的梯度消失问题，能够保障本申请所述方法所涉及的端到端的网络结构训练最终结果，可以有效地收敛到可靠点附近。

3、双通道信息融合及三维信息处理阶段

采用如图6所示的双通道信息融合模块，对于上述两个层次的信息进行有效融合；双通道信息融合之后，利用三维卷积神经网络进行最终的特征提取，从而得到最终的体素级别语义分割结果。

在双通道信息融合模块中，首先，将RGB特征以及体素特征叠加在一起；然后，利用常用的3*3的卷积层+bacth normalization+ReLU激活函数，针对叠加后的信息进行初步的信息提取；之后，进行全局池化，提取全局特征，通过1*1卷积层+ReLU激活函数+1*1卷积层进行进一步处理；最后，利用sigmoid激活函数得到各个特征通道相应的权重，与3*3卷积层处理后的特征点乘得到加权后的特征，再与未加权的特征相加得到双通道信息融合后所提取到的特征信息。

双通道信息融合之后的三维卷积神经网络，由于其参数过于庞大、并且之前已经提取到了较多且有用的空间特征信息，因此本申请所采用的三维卷积神经网络，具有1*1卷积降维、3*3卷积提取特征、1*1卷积升维的结构特征。通过上述两个堆叠模块仍可较好地执行体素级别语义分割操作。

4、关于损失函数

本申请所述分割方法采用如下语义分割网路中常用的交叉熵：

其中，y_i为期望的输出，y_{i_}为实际的输出，由于我们的输出结果为one-hot标签，因而只有正确的期望输出为1，其他均为0，loss即可简化为：

loss_i＝-log(y_{i_})

通过上述交叉熵来计算概率分布，以计算预测标签的概率分布与真实标签的概率分布之间的距离，从而得到语义分割的损失函数。利用Adam算法进行梯度下降可降低整体网络loss，从而得到网络模型总体参数。

再结合以下具体的分割实例进行更为形象地对比说明。

如图7所示的卧室内部场景三维模型示意图，如图9所示的客厅内部场景三维模型示意图。

首先，使用tof相机利用基于TSDF的三维重建方法针对于室内场景完成模型重建以及纹理贴图；

然后，将重建完成的TSDF模型、重建时的相机姿态、深度图以及颜色图送入本申请所述的深度学习网络中，即可以立刻得到TSDF模型中每个体素级别的语义信息。

如图8所示的卧室内部场景语义分割结果示意图，如图10所示的客厅内部场景语义分割结果示意图，可以清晰地识别出来建模模型中哪一块属于卧室中的沙发，哪一块属于卧室中的电视等等。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于体素模型与颜色信息耦合的三维语义分割方法，其特征在于：包括以下实施阶段，

1)、二维RGB图像处理阶段

获得当前帧映射到世界坐标系下的相机姿态信息；

2)、三维TSDF体素模型处理阶段

首先，进行前端三维模型重建；

其次，采取符号距离函数对整个TSDF体素模型进行计算；

然后，使用残差模块初步提取三维特征；

3)、双通道信息融合及三维信息处理阶段

对于二维及三维信息进行融合；

2.根据权利要求1所述的基于体素模型与颜色信息耦合的三维语义分割方法，其特征在于：所述的二维RGB图像处理阶段，在获得当前帧映射到世界坐标系下的相机姿态信息中，利用三维重建或者SFM技术通过多视角几何方法进行计算。

3.根据权利要求1或2所述的基于体素模型与颜色信息耦合的三维语义分割方法，其特征在于：所述的二维RGB图像处理阶段，在所述的RGB通道选择模块中，首先，将输入特征进行全局池化；然后，将全局池化后的结果利用1*1大小的卷积层进一步提取特征；之后，利用batch normalization规范化特征的相关分布；最后，通过sigmoid激活函数处理，得到该模块提取出来的不同视角RGB特征的权重，并与输入特征进行点乘操作，得到输入特征加权后的结果。

4.根据权利要求1所述的基于体素模型与颜色信息耦合的三维语义分割方法，其特征在于：所述的三维TSDF体素模型处理阶段，在前端三维重建过程中，将输入的RGB图像中的depth信息融入到TSDF模型中，以作为本申请所采用三维网络的输入。

5.根据权利要求4所述的基于体素模型与颜色信息耦合的三维语义分割方法，其特征在于：所述的三维TSDF体素模型处理阶段，首先，残差模块将输入特征首先通过1*1的卷积层进行降维，以减少整个模型的参数量、加速模型训练，并经过ReLU激活函数激活后送入3*3的卷积层进行特征提取；然后，利用1*1的卷积层进行升维恢复到原始的维度；最后，将输入特征与升维后的特征相加得到残差模块处理后的特征。

6.根据权利要求1所述的基于体素模型与颜色信息耦合的三维语义分割方法，其特征在于：所述的双通道信息融合及三维信息处理阶段，在双通道信息融合模块中，首先，将RGB特征以及体素特征叠加在一起；然后，利用常用的3*3的卷积层+bacth normalization+ReLU激活函数，针对叠加后的信息进行初步的信息提取；之后，进行全局池化，提取全局特征，通过1*1卷积层+ReLU激活函数+1*1卷积层进行进一步处理；最后，利用sigmoid激活函数得到各个特征通道相应的权重，与3*3卷积层处理后的特征点乘得到加权后的特征，再与未加权的特征相加得到双通道信息融合后所提取到的特征信息。