CN111583390A

CN111583390A - 基于深度语义融合的卷积神经网络的三维语义图重建方法

Info

Publication number: CN111583390A
Application number: CN202010350966.3A
Authority: CN
Inventors: 杨晨; 陈琦; 张靖宇; 李丹; 耿莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-25
Anticipated expiration: 2040-04-28
Also published as: CN111583390B

Abstract

本发明基于深度语义融合的卷积神经网络的三维语义图重建方法，是在单目相机条件下进行算法设计。该方法首先设计一个深度语义融合的卷积神经网络，对一直单目图像的每个像素点估计深度和预测语义。之后将深度估计的矩阵和语义分割的矩阵保存为深度图像和语义图像。然后以图像左上角为坐标原点为每个像素点建立三维坐标，结合每个像素点对应的RGB信息得到点云数据。最后生成三维语义图。相比与分别进行图像的深度估计和语义分割的两个卷积神经网络，基于深度语义融合的卷积神经网络在准确率几乎不变的情况下，参数量分别减少了20倍和40倍，同时网络推理时间缩短了一半。

Description

基于深度语义融合的卷积神经网络的三维语义图重建方法

技术领域

本发明属于三维语义地图重建领域，具体涉及一种基于深度语义融合的卷积神经网络的三维语义图重建方法。

背景技术

地图可以对周围环境信息进行描述，便于人类对未知环境进行理解。为了机器实现更加深度智能化，增加自主理解周围环境的能力。因此针对三维几何地图每个像素点增加语义信息，构建可理解的三维语义地图的研究是机器人一个有应用前景的重要方向。可理解三维地图也称为三维语义地图，指的是对场景内采集到的数据信息，通过一定的数学方法，生成包含空间坐标信息和语义标记信息在内的三维点云数据，给它赋予人类理解上的含义，最终建立包含语义信息的三维地图。

近年来随着智能化移动机器人的发展，三维语义地图重建得到了国内外学者的关注。常用的方法主要有两种方法，第一是基于深度相机对当前环境进行深度估计，建立三维环境空间得到深度图像。然后使用深度学习对深度图像进行三维语义分割从而构建三维语义地图。第二是对二维图像进行语义分割得到语义图像，之后融合深度图像从而构建三维语义地图。

针对第一种方法，例如PointNet等卷积神经网络对RGB-D连续图像帧进行像素级别的类别标记最终生成包含语义信息的稠密三维地图。虽然PointNet网络在modelnet_40数据集的分类中达到了90％的准确率，但是只是对单一物体进行识别。在输入数据大小仅为8192*5时，整个网络参数量为16.6M，计算量达到3633M，因此很难在更大分辨率的相机场景中进行实用。而且它的输入点云数据是无序数据，数据之间缺少关联，没有全局信息，在更大分辨率更复杂的输入场景中难以使用，因此在实际应用中更常使用第二种方法。

针对第二种方法，例如SemanticFusion等网络，它的缺点在于深度相机作为深度图像获取最便捷有效的方法，在室外环境中存在很大的局限性。现如今基于深度学习不仅在图像语义分割中取得显著成就，而且在图像深度估计的研究中也取得了良好表现，因此可以基于深度学习进行图像深度估计。例如基于FCRN网络对连续图像推理深度信息得到深度图像。将整个网络在NYU数据集上针对640*480分辨率的图像降采样为304*228图像后进行训练和测试，在十米范围内的室内环境中进行深度估计可以达到0.573的平均误差。但是基于两个网络完成语义分割和深度估计存在网络参数量过大，计算复杂的缺点。

综上所述，本发明主要的发明是基于一个卷积神经网络，同时训练和推理深度估计和语义分割两个任务，得到深度图像和语义图像，然后将它们融合成稠密的三维语义点云图。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于深度语义融合的卷积神经网络的三维语义图重建方法，该方法基于深度语义融合的卷积神经网络完成图像深度估计和语义分割两个任务，之后将深度图像和语义图像融合成稠密三维语义点云图。实现在准确率基本不变的基础上，减少了网络的计算的参数量和推理计算时间。

本发明采用如下技术方案来实现的：

基于深度语义融合的卷积神经网络的三维语义图重建方法，包括以下步骤：

1)选择已有的带有语义分割和深度估计的NYU数据集，将训练数据划分为训练数据集和验证数据集；

2)搭建深度语义融合的卷积神经网络模型，使用训练数据集训练模型，当训练的模型在验证数据集上达到设定的精度，保存网络模型参数；

3)使用训练好的模型对测试图像的每个像素点进行深度距离和语义信息的预测，生成深度图像和语义图像；

4)融合深度图像和语义图像重建三维语义图像。

本发明进一步的改进在于，步骤2)的具体实现方法如下：

201)搭建基于深度语义融合的卷积神经网络模型时，根据数据集标签和两个任务的特性，对网络结构进行设计；

202)训练基于深度语义融合的卷积神经网络模型时，根据数据集标签和多任务的特性，设计损失函数进行训练。

本发明进一步的改进在于，步骤201)的具体实现方法如下：

2011)搭建基于深度语义融合的卷积神经网络模型时，分为编码层，解码层，判别层和输出层，其中编码层对图像进行降采样提取特征，解码层进行像素点语义预测和深度距离预测；

2012)搭建基于深度语义融合的卷积神经网络编码层时，分为三步：

第一：根据公式将图像进行标准化预处理，根据三通道的RGB自然图像统计特征，均值img_mean每个通道取值为(0.485,0.456,0.406)，方差img_std为每个通道的取值为(0.229,0.224,0.225)；

第二：使用第一层对预处理后的特征图像使用线性插值的方法缩小特征图像分辨率，经过反复实验发现，当输出特征图像大小400*300*3分辨率时，基于深度语义融合的卷积神经网络推理的时间和准确率效果最好；

第三：将深度可分离卷积核，BatchNorm函数，Relu激活函数通过累加设计convbnrelu模块，将三个convbnrelu模块累加成一个block模块，按照残差计算的方式连接所有block模块得到编码层；

2012)搭建基于深度语义融合的卷积神经网络解码层时，分为两步：

第一：对编码层得到的特征图像使用卷积核尺度大小为1的标准卷积核与窗口大小为5的最大池化交替进行运算，得到进一步细化的特征图像；

第二：使用双线性插值对进一步细化的特征图像进行上采样，还原得到与上一层特征图像大小相同的特征图像，将两层图像像素按照相同位置相加的方法进行融合；

2013)搭建基于深度语义融合的卷积神经网络判别层时，使用两个分支网络基于卷积核尺度大小为1的标准卷积核，分别预测语义信息和深度距离；

2014)搭建基于深度语义融合的卷积神经网络输出层时，将判别层预测的语义矩阵和深度矩阵通过双线性插值的方法还原成与原图像分辨率相同的语义矩阵和深度矩阵。

本发明进一步的改进在于，步骤202)的具体实现方法如下：

训练基于深度语义融合的卷积神经网络模型时，按照公式设计损失函数，其中p表示像素点语义真实值，q表示像素点语义预测值，y表示像素点深度距离真实值，f(x)表示像素点深度距离预测值，λ为0.4；

Loss(p，q，y，f(x),x)＝-λH(p，q)+(1-λ)L(y-f(x))。

本发明进一步的改进在于，步骤3)的具体实现方法如下：

301)生成语义图像时，将得到的640*480*40的语义矩阵选择每个像素概率最大的值所在位置作为标签，转化为640*480*1的语义图像；将每一个语义标签对应一个RGB像素值，根据对应的RGB值转化为640*480*3的语义图像；

302)生成深度图像时，将得到的640*480*1的深度矩阵每个值扩大5000倍，截取整数部分；然后按照uint16将其进行存储，最后转化为深度图像；读取深度图像时，通过读取像素然后缩小5000倍即可。

本发明进一步的改进在于，步骤4)的具体实现方法如下：

融合深度图像和语义图像重建三维语义图像时，读取深度图像缩小5000倍后作为深度值，以图像左上角为坐标原点为每个像素点建立三维坐标；整合三维坐标和RGB值生成点云数据；将所有的点云数据整合，生成点云图。

本发明至少具有如下有益的技术效果：

主要特点：

1、设计了一个深度语义融合的卷积神经网络(Semantic and Depth FusionConvolutional Neural Networks,SDFCNN)实现图像深度估计和语义分割两个功能。

2、将得到的深度图像和语义分割融合，得到一个三维语义点云图。

主要优点：

1、SDFCNN网络基于一个卷积神经网络实现图像深度估计和语义分割两个功能。

2、SDFCNN网络对比分别完成语义分割和深度估计两个任务的深度学习网络，在保证准确率不变的基础上减少了网络的参数来和推理时间。

附图说明

图1为深度语义融合的卷积神经网络结构示意图；

图2为双线性插值计算方法示意图；

图3为Encoder网络组成模块示意图；

图4为基于深度语义融合的卷积神经网络实现语义分割和深度估计示意图；图4中(e)表示原图像，图4中(a)表示预测语义图像，图4中(b)表示真实语义标签图像，图4中(c)表示预测深度图像，图4中(d)表示真实深度图像。

图5为三维语义点云图。图5中(a)表示真实深度图像和真实语义图像融合，图5中(b)表示预测深度图像和预测语义图像融合。

具体实施方式

以下结合附图和实施例对本发明做出进一步的说明。

本发明提出了一个语义和深度融合卷积神经网络(Semantic and Depth FusionConvolutional Neural Networks,SDFCNN)，网络结构如图1所示。

SDFCNN网络是一个端到端的学习，因此采用Encoder-Decoder框架如图1所示。它主要由输入层Input，降采样层Encoder，上采样层Decoder，判别层Judge，输出层Output五个部分组成。

SDFCNN网络主要基于NYU数据集进行训练。NYU数据集是常用的语义分割和深度估计的数据集。它拍摄与室内环境。它的每张图像同时具有语义标签和深度标签信息。NYU数据集中含有三部分内容，分别是1449张分辨率为640*480*3分辨率的RGB彩色图片，具有894类语义标签的分辨率为640*480*1的语义图像，使用Kinect相机得到的具有深度信息的，深度范围是0.713米到9.995米，分辨率为640*480*1的深度图像。因此SDFCNN网络在NYU数据集中进行测试和训练。

输入层Input主要对原始图像进行预处理。使用NYU数据集中640*480*3的图像作为输入数据img_in。基于公式1标准化计算进行图像预处理，因为RGB每个通道值在0到255之间，因此img_scale为

最终使得特征图像img_out的样本符合均值是0，标准差是1的标准正态分布。其中根据自然图像的统计特征，除了遥感图像或医学图像，均值img_mean每个通道取值为(0.485,0.456,0.406)，方差img_std为每个通道的取值为(0.229,0.224,0.225)。

因为输入图像的分辨率过大会影响SDFCNN网络的推理计算量和速度，所以在输入层使用layer0层对预处理后的特征图像使用线性插值的方法缩小特征图像分辨率，减小传入SDFCNN网络的数据量，达到减少参数量和计算量缩短时间的目的。经过反复实验发现，当输出特征图像大小400*300*3分辨率时，SDFCNN网络推理的时间和准确率效果最好。所以layer0层最终得到400*300*3分辨率的输出图像作为SDFCNN网络的输入图像。

Layer0层具体降采样做法如图2所示，取输入特征图像的横坐标在整数x*1.6到(x+1)*1.6之间，纵坐标在整数y*1.6到(y+1)*1.6之间的像素值，从中取值范围内选取a点坐标为(x1,y2)，b点的坐标为(x2,y2)，c点的坐标为(x1,y1)，d点的坐标为(x2,y1)，使用公式2-8进行双线性插值计算得到输出特征图像坐标p位置为(x,y)像素值。x是表示横坐标，取值范围是0到400，y是表示纵坐标，取值范围是0到300。Layer0层输出特征图像是Encoder层输入特征图像。

Layer0层具体降采样做法如图2所示，取输入特征图像的横坐标在整数x*1.6到(x+1)*1.6之间，纵坐标在整数y*1.6到(y+1)*1.6之间的像素值，从中取值范围内选取a点坐标为(x1,y2)，b点的坐标为(x2,y2)，c点的坐标为(x1,y1)，d点的坐标为(x2,y1)，使用公式2进行双线性插值计算得到输出特征图像坐标p位置为(x,y)像素值。x是表示横坐标，取值范围是0到400，y是表示纵坐标，取值范围是0到300。Layer0层输出特征图像是Encoder层输入特征图像。

Encoder网络主要是基于卷积神经网络进行图像降采样。本发明设计的Encoder网络具有七层卷积层，具体设计遵循三个原则。

1.因为语义分割和深度估计两个任务需要对每个像素进行训练和推理，因此具有大量的数据，所以需要设计更深的网络进行推理。BatchNorm可以解决网络过深带来损失无法收敛等问题，所以在卷积层中加入BatchNorm计算。同时残差连接也是解决更深的网络中的梯度消失和梯度爆炸等问题，因此在降采样网络结构中采用残差连接方法，所以网络结构使用残差模块进行累加。

2.卷积运算中使用小卷积核进行卷积。第一因为小卷积在和大卷积核有相同感受野时，网络参数更小，计算参数总量更少，计算速度更快。第二小卷积核对比大卷积核，整合了多个非线性激活层，增加了判别能力。

3.卷积神经网络开始进行高级特征例如面，局部块提取，随着网络层数增加开始对低级特征例如点，线提取。因此随着神经网络深度的增加，需要使用更多的小卷积核对其进行更加细致的特征提取。

遵循上述原则，Encoder网络具体设计如下：

1.将卷积运算，BatchNorm计算，激活函数计算封装成一个convbnrelu模块如图3左一所示。其中卷积运算中,遵循小卷积核的原理，使用常用的卷积核尺度大小为1，3的标准卷积核进行卷积计算。激活函数选择更容易优化的ReLu激活函数。

2.Layer1到Layer7的每一层通过convburelu模块进行累加成一个block模块如图3左二所示。然后通过block模块通过残差连接的方式将输出值进行相加得到下一层的输出，得到Layer层结构如图左三所示。其中每一个Layer层结构叠加的block模块数量不同。根据反复实验测试和遵循上述第三条原则，因此随着网络层数的加深，叠加的block层数越多。具体Encoder网络模型如附录表1所示。

表1 Encoder模型

Decoder网络主要是基于上采样方法，本发明设计的Decoder网络主要有四层，具体设计遵循两个原则。

1.Encoder网络每一层的特征图像表示在不同尺度下提取的特征。Decoder网络需要利用不同尺度下的提取的特征图像，将它们融合然后对它们进行还原。

2.语义分割和深度估计两个任务需要对整个图像所有像素点进行预测，它的难点在于边缘预测。因此在Decoder网络中需要基于卷积核进一步细化。所以需要更小的卷积核进行局部特征的提取。同时最大池化作用是提取局部区域最大值，它不仅对局部小特征感受较好，而且可以消除非极大值，降低上采样的计算复杂度。因此随着网络深度增加，将卷积计算和最大池化运算交替进行，可以近一步细化图像特征。

遵循上述原则，Decoder网络具体设计如下：

1.Layer8层遵循第二条原则，使用卷积核尺度大小为1的标准卷积核与窗口大小为5的最大池化交替进行运算，得到特征图像。然后将特征图像通过公式4双线性插值上采样的计算，得到与Layer6层特征图像大小相同的特征图像。最后将两个特征图像通过对应像素相加的方法进行融合。

2.Layer9层，Layer10层，Layer11层与Layer8层设计思路相同。通过使用卷积核尺度大小为1的标准卷积核与窗口大小为5的最大池化交替进行运算，得到特征图像。然后将它们分别通过上采样的方法还原成与Layer6，Layer5，Layer4，Layer3层特征图像大小相同的特征图像。最后如图1所示，按照各层之间的对应关系分别将所有特征图像通过对应像素相加的方法进行融合，输出与Layer3层特征图像大小相同的特征图像。

判别层judge主要分为语义分割和深度估计两个部分，语义分割数量为n。它们分别对Decoder网络输出特征图像使用1*1*n卷积核卷积计算，预测每个像素在个分类中得概率，取概率最大的类别。使用1*1的卷积核对每个像素的景深进行回归拟合，得到一个拟合结果。

输出层Output将判别层得到的预测图像通过双线性插值的方法还原成与原图像分辨率640*480相同的图像，便于稠密点云图生成。

综上所述，得到SDFCNN网络结构如附录中表所示。

SDFCNN网络的使用NYU数据集进行训练，因为它的语义标签具有894类，很难收敛，因此将标签进行整理重新映射得到40类标签，分别是墙，地板，橱柜，床，椅子，沙发，桌子，门，窗户，书架，照片，柜台，百叶窗，椅子，架子，窗帘，梳妆台，枕头，镜子，垫子，衣服，天花板，书，冰箱，电视，纸，毛巾，浴帘，盒子，白色书写板，人，床头柜，厕所，洗碗池，灯，浴缸，袋子，其他建筑物，其他支撑物，使用40类语义标签进行训练，将每个语义图像每个像素采用1*40向量表示，每一个值表示其对应的分类的概率，其中它的所属类表示为1其他值设为0，使用640*480*40的矩阵作为标签。深度标签每个像素表示其景深距离，得到640*480*1的矩阵作为标签。

语义分割和深度估计两个任务进行训练，需要两个损失函数进行联合优化。语义分割属于分类问题，因此选择交叉熵损失函数H如公式5所示训练。深度估计属于回归问题，因此使用回归损失函数L如公式6所示训练。整个网络的训练将两个损失函数进行融合得到SDFCNN网络损失函数Loss，如公式7所示。其中λ表示0到1之间的数，含义是训练的网络更加侧重于训练哪个任务，本文中设其值为0.5。

Loss(p，q，y，f(x)，x)＝-λH(p，q)+(1-λ)L(y-f(x)) (公式5)

基于上述Loss损失函数，对NYU数据集进行训练。训练过程中一次训练二十张图像，超参数中batch-size设置为20，epoch设置为20000。学习率前20个epoch为0.1，之后调整为0.01进行训练。

本发明提出了一个点云图融合的方法，基于语义图像和深度图像生成点云图。

将得到的640*480*40的语义矩阵选择每个像素概率最大的值所在位置作为标签，转化为640*480*1的语义图像。将每一个语义标签对应一个RGB像素值，根据对应的RGB值转化为640*480*3的语义图像。

深度图像按照16位进行存储。因此按照公式6将得到的640*480*1的深度矩阵depth每个值扩大5000倍，截取整数部分。然后按照uint16将其进行存储，最后转化为Image深度图像。读取深度图像时，通过读取像素然后缩小5000倍即可。

depth＝depth*5000 (公式6)

根据相机位姿将图像中每个像素点映射到世界坐标系中转化为世界坐标。具体做法是以图像左上角为原点建立图像坐标系，使用深度图像得到图像坐标系下的像素点在相机坐标中的坐标位置横坐标x，纵坐标y，深度坐标z。根据公式7使用相机内参参数k，相机旋转R和平移变化t将相机坐标系中的像素点坐标对应到世界坐标系中，得到其在世界坐标系中的坐标位置横坐标X，纵坐标Y，深度坐标Z。将世界坐标系的坐标结合语义信息其中每个语义信息对应一个RGB值。最终生成点云数据(X,Y,Z,R,B,G)。将所有的点云数据整合生成点云图。

【本发明与现有方法的性能对比】

本发明进行三维语义地图重建的实验平台是CPU，测试集是从NYU数据集中选择200个图像生成。重建方法是基于SDFCNN网络进行二维图像的语义分割和深度估计，然后将语义图像和深度图像融合成三维语义地图。现如今基于DeepLab网络在语义分割方面取得了良好表现，基于FCRN网络在深度估计方面取得了良好的表现，因此将SDFCNN网络与它们进行定量分析对比。

首先在CPU平台运行基于SDFCNN网络得到的语义图像和深度图像如图4所示。其中e表示原图像，a表示预测语义图像，b表示语义标签图像，c表示预测深度图像，d表示深度标签图像。可以看出基于一个SDFCNN网络可以准确完成语义分割和深度估计两个任务。

然后将基于SDFCNN网络与基于DeepLab网络得到语义图像在准确率，推理时间，以及网络参数量，计算量等方面性能进行对比。它们对比性能如表2所示。语义图像准确率对比的指标主要两个MPA和MIoU。

MPA表示平均每个类内被正确分类的像素数的比例，按照公式8计算。其中p_ii真值是第i类预测是第i类。p_ij真值是第i类预测是第j类。K表示分类的个数。

MIoU表示真实值和预测值的交集与并集之比，按照公式9计算。其中p_ii，p_ij，K与上面相同。p_ji真值是第j类预测是第i类。

可以看出在同一个CPU环境下，基于DeepLab和本文的SDFCNN网络对同一个测试集进行测试。虽然本文提出的SDFCNN网络在准确率上略有降低，平均每个类正确率MAP降低了0.053，在真实值和预测值的交集与并集之比MIoU降低了0.053。但是基于DeepLab网络推理时间大约是基于SDFCNN网络的一倍。基于DeepLab网络参数量大约是基于SDFCNN网络的40倍。

表2语义图像性能对比

然后将基于SDFCNN网络与基于FCRN网络得到深度图像的平均方差，绝对差，精确度，推理时间，以及网络参数量，计算量多方面性能进行对比。选择和语义分割测试同的数据集。它们对比性能如表3所示。

深度估计中RMS指真实值D_i与预测值

之间的均方误差，按照公式10计算。其中N表示像素点个数。

REL指真实值D_i与预测值

之间的相对误差，按照公式11计算。

Accuracy指真实值D_i与预测值

之间的比小于设置阈值T判断预测正确，统计预测正确的像素点占总像素点的比例。按照公式12计算。其中T的值设置为1.25，1.25²，1.25³。

可以看出在同一个CPU环境下，基于FCRN和本文的SDFCNN网络对同一个测试集进行测试。虽然本文提出的SDFCNN网络在准确率上略有降低。在均方误差上降低了0.151。在相对误差上降低了0.074。在阈值为1.25时，精准率减少了0.112，在阈值为1.25²时，精准率减少了0.09，在阈值为1.25³时，精准率减少了0.011。但是基于FCRN网络推理时间大约是基于SDFCNN网络的一倍。基于FCRN网络参数量大约是基于SDFCNN网络的20倍。

表3深度图像性能对比

最后按照点云图生成的方法将语义图像和深度图像进行融合，得到三维语义点云图，如图5所示。其中a表示真实深度图像和真实语义图像融合，b表示预测深度图像和预测语义图像融合。

实施例

通过单目相机拍摄视频，对二维图像进行语义分割和深度估计，然后融合得到语义点云数据，实现三维语义图重建。首先基于CPU平台使用SDFCNN网络快速推理得到语义图像和深度图像，之后将两张图像融合成点云图。可以通过单目相机快速理解环境信息。

附录：

表SDFCNN网络模型