CN109447923A

CN109447923A - 一种语义场景补全系统与方法

Info

Publication number: CN109447923A
Application number: CN201811129666.1A
Authority: CN
Inventors: 刘世策; 胡瑜; 曾鸣; 曾一鸣; 唐乾坤; 金贝贝; 韩银和; 李晓维
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2019-03-08

Abstract

本发明涉及一种语义场景补全方法和系统，包括：获取已标注的彩色图像和深度图像，作为训练数据，其中彩色图像和深度图像已标注语义分割标签和语义场景补全标签；使用训练数据训练卷积神经网络，得到语义分割模型和语义场景补全模型，将待语义场景补全的待补全图像输入至语义分割模型，得到语义分割结果；根据拍摄彩色图像的相机参数和深度图像，得到彩色图像中像素和深度图像中体素的映射关系，根据映射关系将语义分割结果投影到三维空间，得到待补全图像的语义场景表面；对语义场景表面进行离散化处理后输入至语义场景补全模型，得到待补全图像的三维结构和待补全图像中物体的类别，输出三维结构和类别作为待补全图像的语义场景补全结果。

Description

一种语义场景补全系统与方法

技术领域

本发明涉及三维语义场景补全技术领域，具体涉及一种基于卷积神经网络的适用多传感器的三维语义场景补全系统与方法。

背景技术

语义场景补全，即三维场景的恢复和语义理解，一直是计算机视觉技术当中的一个重要的问题。例如：机器人只有像人一样拥有感知场景三维结构和理解三维物体的能力，才能与周围的环境做更多的交互。因此，如果能很好的恢复场景的三维结构和得到场景中的物体类别，将会对人工智能的发展起到极大的促进作用。此外，语义场景补全还可广泛用于增强现实、路径规划与导航、环境地图的构建等。

目前，语义场景补全主要通过两种方式实现：

一种是基于模型匹配的方式补全语义场景。通过对彩色图像进行超像素的分割，结合深度图像对每一部分进行模型匹配。此处用到的模型来源于计算机辅助设计(Computer Aided Design,CAD)模型库，其中包含大量的物体模型。该方法的关键在于图像层面的像素分割和模型的搜索和匹配效率。针对前者，分割的不准确会直接导致用错误的模板在模型库中查找，影响最后效果；对于后者，太小的模型库可能导致每个模型不精确，而太大的模型库会导致搜索时间太长。对此，另一些方法直接舍弃利用模型库，取而代之的是使用三维长方体或球体候选框代表物体的结构。但是，显然地，得到的物体损失了大量的细节。

另一种方式是直接在体素空间对场景中的每个体素进行类别解释(某个类别或空)。该类方法避免了使用(Computer Aided Design,CAD)模型库以及模型检索过程。早期工作通常通过大量的训练集，提取人工特征以及使用条件随机场来建模物体的结构，但是它们具有主观性，并且时间消耗巨大。此外，利用多幅图像来恢复完整的场景也是一个传统且常用的途径。可使用运动恢复结构(Structure from Motion,SfM)或者同时定位与建图(Simultaneous Location And Mapping,SLAM)技术来恢复高精度的场景。然而，需要连续多幅图像是此类方法的特点。近期，基于单幅图像的语义场景补全技术被提出，并且能通过卷积神经网络的方法实现端到端的学习。

单幅深度图像的语义场景补全技术首先被普林斯顿大学提出。包括依据单张深度图像，通过设计SSCNet，恢复出整个场景的语义补全表示，并且为后来的研究者提供了一种参考基准。相应的，如何引入特征丰富的彩色图像也成为研究者们的重点研究问题。

总结起来，当前语义场景补全存在如下的问题：直接在三维空间中提取彩色图像和深度图像的特征会更具有难度，因为存储和计算时间的限制使场景的体素表示分辨率不高，从而导致提取优质特征的难度会变得更大；针对RGB或Depth等不同的输入，采用定制化的网络结构会导致可扩展性很差，不利于将来更多的传感器的使用；紧耦合的网络设计模式使得将来性能的提高非常的困难，如果希望整体性能提高，需要改变整个框架的结构。

为了充分挖掘彩色图像和深度图像的特征，需要利用图像像素稠密的特点，获取大量更有代表性的特征，后将特征用于三维空间的重建以及物体类别的识别。因此，我们通过实验发现，对图像先进行2D卷积，然后投影到3D空间，最后进行3D卷积，这是一种更能有效利用图像稠密性的一种方法。

发明内容

本发明提出了一种语义场景补全系统与方法：输入一张深度图(Depth)或彩色图和深度图(RGB-D)，通过卷积神经网络，得到当前场景的三维结构和物体类别。其中，本发明使用了解耦合的方法，将语义场景补全系统分割为三个子系统来完成：图像空间信息提取系统，重投影变换系统和三维语义场景补全系统。相比于传统的系统与方法，该三阶段的系统与方法效果更好、拥有更高的可扩展性和可进化性。

具体地说，本发明公开了一种语义场景补全方法，其中包括：

步骤1、获取已标注的彩色图像和深度图像，作为训练数据，其中该彩色图像和该深度图像已标注语义分割标签和语义场景补全标签；

步骤2、使用该训练数据训练卷积神经网络，得到语义分割模型和语义场景补全模型，将待语义场景补全的待补全图像输入至该语义分割模型，得到语义分割结果；

步骤3、根据拍摄该彩色图像的相机参数和该深度图像，得到该彩色图像中像素和该深度图像中体素的映射关系，根据该映射关系将该语义分割结果投影到三维空间，得到该待补全图像的语义场景表面；

步骤4、对该语义场景表面进行离散化处理后输入至该语义场景补全模型，得到该待补全图像的三维结构和该待补全图像中物体的类别，输出该三维结构和该类别作为该待补全图像的语义场景补全结果。

该语义场景补全方法，其中步骤2中该卷积神经网络包括：图像编码单元和图像解码单元；

该图像编码单元，用于提取输入图像的特征图；

该图像解码单元，用于完成该特征图的解码，得到与输入图像相同分辨率的该语义分割结果。

该语义场景补全方法，其中步骤3中该相机参数包括相机的内参数和相机的外参数；

该内参数包括：焦距、感光元件分辨率；

该外参数为该相机坐标系在世界坐标系下的位姿变换。

该语义场景补全方法，其中该步骤1还包括：对该训练数据进行色度、饱和度和亮度的调整。

该语义场景补全方法，其中该待补全图像为由待语义场景补全的彩色图像和其对应的深度图像组成的图像对，该语义分割模型，在像素空间对该图像对进行语义分割，将待语义场景补全的彩色图像和其对应的深度图像，两者语义分割的结果拼接，作为该语义分割结果。

本发明还公开了一种语义场景补全系统，其中包括：

训练数据获取模块，用于获取已标注的彩色图像和深度图像，作为训练数据，其中该彩色图像和该深度图像已标注语义分割标签和语义场景补全标签；

模型训练模块，使用该训练数据训练卷积神经网络，得到语义分割模型和语义场景补全模型，将待语义场景补全的待补全图像输入至该语义分割模型，得到语义分割结果；

映射模块，用于根据拍摄该彩色图像的相机参数和该深度图像，得到该彩色图像中像素和该深度图像中体素的映射关系，根据该映射关系将该语义分割结果投影到三维空间，得到该待补全图像的语义场景表面；

语义场景补全模块，用于对该语义场景表面进行离散化处理后输入至该语义场景补全模型，得到该待补全图像的三维结构和该待补全图像中物体的类别，输出该三维结构和该类别作为该待补全图像的语义场景补全结果。

该语义场景补全系统，其中模型训练模块中该卷积神经网络包括：图像编码单元和图像解码单元；

该图像编码单元，用于提取输入图像的特征图；

该语义场景补全系统，其中该相机参数包括相机的内参数和相机的外参数；

该内参数包括：焦距、感光元件分辨率；

该外参数为该相机坐标系在世界坐标系下的位姿变换。

该语义场景补全系统，其中该训练数据获取模块还包括：对该训练数据进行色度、饱和度和亮度的调整。

该语义场景补全系统，其中该待补全图像为由待语义场景补全的彩色图像和其对应的深度图像组成的图像对，该语义分割模型，在像素空间对该图像对进行语义分割，将待语义场景补全的彩色图像和其对应的深度图像，两者语义分割的结果拼接，作为该语义分割结果。

此外，在实验中，本发明的语义场景补全框架也弥补了之前工作的未充分挖掘深度信息和可扩展性弱的缺陷。且具有以下三个优点：

1)通过在二维空间中对彩色图像或深度图像进行语义分割来帮助三维空间中的语义场景补全任务，极大的利用了图像相对于体素的高分辨率的特点，且提高了最终的补全效果。

2)通过对语义场景补全任务的划分，我们可以很方便的针对RGB和Depth重复相同的结构，并且在2D语义分割或3D语义补全处进行拼接来完成多传感器融合。它避免了需要专门设计一种结构来结合多传感器的麻烦。

3)通过提高任一阶段的精度，整体的语义场景补全精度都会提高。这也为我们提出的三阶段的框架的实用性提供了保障。

附图说明

图1为本发明的三阶段系统的框架图；

图2为本发明的重投影变换系统图；

图3为本发明的三维语义场景补全系统图；

图4为本发明针对RGB-D输入的双分支场景补全流程图。

具体实施方式

为了统一的处理RGB或Depth等图像，需要得到一种与输入类别无关的特征，再通过直接对该特征的处理，得到最终的语义场景补全结果。实验证明，语义分割的结果对三维语义场景补全是有效的。因此，对RGB图像或Depth图像先得到与输入类别无关的语义分割结果，然后再通过语义分割得到语义场景补全，这是有效的。

为了能提高框架的实用性和可进化性，我们应当采用一种松耦合的系统。该系统需要包含若干常用子模块，每个子模块能够非常容易的得到改善。对此，2D语义分割和基于语义分割的3D语义场景补全是两个更容易解决和更容易改善的子问题，所以将复杂的、通过RGB或Depth直接获取语义场景补全的大问题，分解为语义分割和基于语义分割的语义补全两个小问题是一种具有可进化性的方法。

综上所述，为了提出一种效果更好，更容易融合多种传感器并且具有可进化性的语义场景补全方法，我们从人对环境的感知方式出发，设计了一个三阶段的、更通用的语义场景补全框架。“格式塔”认知心理认为：“分割、形状恢复和识别是按顺序进行的，并且低层的信息是高层认知的基础。”因此，本发明将二维图像层面的语义分割当做低层信息，将三维场景结构恢复和物体类别识别当做高层信息，用语义分割来辅助语义场景补全的完成。该三阶段的框架按顺序分别完成2D语义分割，2D至3D的投影变换以及3D空间的语义场景补全。

本发明涉及三维重建领域，公开了一种语义场景补全系统与方法。本系统使用卷积神经网络，输入一张深度图像(Depth)或一张彩色图和深度图(RGB-D)，直接恢复当前场景的三维体素结构以及物体的类别。系统包括：图像空间信息提取系统，重投影变换系统和三维语义场景补全系统；图像空间信息提取系统包括1个图像编码单元和1个图像解码单元，重投影变换系统包括1个重投影变换单元，三维语义场景补全系统包括串联的4级重建单元和至少1级语义补全单元。

本发明方法包括：对输入的图像进行编解码，提取语义特征；对语义特征进行重投影，得到三维空间中的语义信息；利用三维空间语义信息进行多级重建，经语义补全单元整合为最终的语义场景补全结果。

该方法的具体步骤如下：

S1：获取已标注的彩色图像和深度图像，作为训练数据，其中该彩色图像和该深度图像已标注语义分割标签和语义场景补全标签。

获取多个彩色图像(RGB)和深度图像(Depth)，以及每幅图像的语义分割标签和对应场景的三维语义场景补全的标签。每个训练样本具有一张彩色图像、一张深度图像、一张2D语义分割的标签和一个3D语义场景补全的标签。本发明完整流程是：彩色图像或深度图像--->2D语义分割--->3D体素表示--->3D语义场景补全。其中第一个箭头先训练(使用2D语义分割的标签)，第二个箭头可以由数学关系推导(不用训练)，然后第三个箭头再训练(使用3D语义场景补全的标签)。

S2：使用该训练数据训练卷积神经网络，得到语义分割模型和语义场景补全模型，将待语义场景补全的待补全图像输入至该语义分割模型，得到语义分割结果。

构建图像空间信息提取系统，主要用于图像层面的语义分割任务。具体包括一个图像编码单元和一个图像解码单元。该方法构建一种具有编码和解码的卷积神经网络(Convolutional Neural Network,CNN)，来完成对彩色图像或深度图像的语义分割任务。

S2.1：编码单元：使用ResNet-50网络结构，去掉最终的全连接分类器就得到了所需的编码单元，编码的结果是一组分辨率降低的特征图；

S2.2：解码单元：使用一组串联的反卷积神经网络(De-Convolutional NeuralNetwork，DCNN)和上采样层(Upsampling Layer)来完成该组特征图的解码，使之能够得到与输入图像相同分辨率的语义分割结果。

S2.3：图像空间信息提取系统的训练过程：利用数据集中的彩色图像、深度图像和图像语义分割的标注，来进行端到端的训练图像空间信息提取系统部分。该训练好的系统将被后续的系统所利用。

S3：根据拍摄该彩色图像的相机参数和该深度图像，得到该彩色图像中像素和该深度图像中体素的映射关系，根据该映射关系将该语义分割结果投影到三维空间，得到该待补全图像的语义场景表面。

重投影变换系统，主要用于将二维图像中的信息投影到三维空间中，以便进行后续的重建工作。

S3.1：重投影变换单元：根据当前的深度图、相机的内参数和相机的外参数，将S2中得到的语义分割结果，通过相机投影变换，得到三维的场景体素表示。该三维场景的体素表示将会直接用于后续系统的语义补全任务。

S3.2：重投影变换单元的训练过程：该单元能直接通过线性变换得到结果，不存在任何需要训练的参数，并且运行时速度很快。

S4：对该语义场景表面进行离散化处理后输入至该语义场景补全模型，得到该待补全图像的三维结构和该待补全图像中物体的类别，输出该三维结构和该类别作为该待补全图像的语义场景补全结果。

三维语义场景补全系统，主要利用S3中得到的场景体素表示，来得到当前场景的语义补全结果。具体包括4个串联的重建单元和至少1个语义补全单元。

S4.1：重建单元：为了便于网络学习，重建单元由残差网络组成。具体包含两个带孔卷积层(Dilated Convolution Layers)，以便能够扩大感受野。同时，4个重建单元的输出特征图会按通道维度拼接为1组数量更多的特征图，用于后续的单元的语义分类工作。

S4.2：语义补全单元：该单元是根据S4.1部分的输出特征图，来进行逐体素的分类工作。因此，需要至少1层卷积来完成最终的分类工作。

S4.3：三维语义场景补全系统的训练过程：在S2系统预训练的基础上，连接S3和S4系统，然后利用数据集中的图像和三维语义场景补全的标签进行端到端的训练。

S5：该方法经过S1～S4步骤，即可得到一个训练好的适用于多传感器的语义场景补全的系统与方法。

此外，该系统在上述S1～S5单分支步骤的基础上，提出了两种融合彩色图像和深度图像的双分支的场景补全方法：

(1)在图像空间信息提取系统融合(S2融合)：

即同时利用彩色图和深度图，利用编解码网络，在像素空间进行语义分割(S2)。然后，将两者语义分割的结果拼接，通过后续的重投影变换系统(S3)和三维语义场景补全系统(S4)，得到最终的高精度语义场景补全的结果。

(2)在三维语义场景补全系统融合(S4融合)：

即对彩色图和深度图分别通过图像空间信息提取系统(S2)，重投影变换系统(S3)和三维语义场景补全系统(S4)，最后将两个语义场景补全的结果拼接，并且通过至少一个语义补全单元进行整合，使之最后能得到精度更好的语义场景补全的结果。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

如图1所示，实施例一：针对Depth或RGB-D输入的单分支结构：

1)准备训练数据集。

训练数据集中应包含数量足够多的训练样本，训练样本通过RGB-D相机等设备自己采集，也可以来自通用的数据集。此外，需要对每一幅图片进行人工标注(获取每幅图像的语义分割和对应场景的三维体素表示)。本实例主要针对室内场景的语义场景补全，在本实施例中使用NYU v2数据集进行训练，通过NYU v2数据集中提供的工具箱可以得到同步的场景彩色图与深度图对应的图像对，以及每张彩色图对应的语义分割结果和对应场景的三维体素表示。训练网络时彩色图和深度图为输入，语义分割和场景三维表示为对应的训练标签。为了增加数据集中样本的数量并提高语义场景补全的卷积神经网络模型的泛化能力，对NYU v2数据集中的原训练样本做如下数据增强操作：

HSL调整：对裁剪后样本的色度(Hue)、饱和度(Saturation)和亮度(Lightness)乘以一个随机值以模拟自然环境的光照变化。

镜像：对所有的样本做水平镜像操作，所得的镜像样本与之前的处理好的样本构成语义场景补全的卷积神经网络模型的训练数据集。

2)图像空间信息提取系统

图像空间信息提取系统使用编解码结构，编码部分选用文献“Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.Deep residual learning for imagerecognition.In Proceedings of the IEEE conference on computer vision andpattern recognition,pages 770–778,2016.”中的ResNet-101模型。基于ResNet-101模型，去除其中的全连接层以其后所有的层，构成了所需语义分割的编码部分。解码部分选用文献“Panqu Wang,Pengfei Chen,Ye Yuan,Ding Liu,Zehua Huang,Xiaodi Hou,andGarrison Cottrell.Understanding convolution for semantic segmentation.arXivpreprint arXiv:1702.08502,2017.”中的DUC结构，使之能够提高细节的准确度。

图像空间信息提取系统的输入图片大小与输出图片大小都为384*288像素。该部分在语义场景补全任务训练之前先被训练，然后将训练好的权重赋予三阶段的网络的第一部分。

3)重投影变换系统

如图2所示，对于2D语义分割的结果，需要将它投影到3D空间中，才能进行场景的语义补全。

已知相机的内参数矩阵K、外参数矩阵、深度图Depth，根据相机投影方程p_u，υ＝K[R|t]p_x，y，z，可以得到图像中每个像素在3D空间中的位置，相机内参数即相机固有参数，可包括：镜头焦距、感光元件尺寸、分辨率等，反映图像像素点位置与相机坐标系下的体素点位置之间的对应关系；外参数是相机坐标系在世界坐标系下的位姿变换，以将相机投影的体素与房间对齐。将上一步中的语义分割结果投影到3D空间，得到当前场景的“语义场景表面”。然后，为了下一步中的3D语义场景补全，该“语义场景表面”需要离散化为三维网格，以便于之后的3D卷积操作。

图像反映的是所拍摄场景的表面(因为被遮挡的部分永远拍不到)，而通过图像恢复场景三维结构的时候，永远不知道被遮挡的部分是什么，所以被遮挡的是“空白”，得到的3D体素表示就只是这个场景的表面(而本发明的目的就是补全这些看不见的、被遮挡的部分)，并且因为图像是语义分割的结果，所以这个场景的表面也是带着语义的，即语义场景表面。

需要注意的是，此处的投影操作实际是建立一个2D像素坐标与3D体素坐标之间的映射关系，之后就是使用此映射，将图像中的特征向量赋值至三维体素中。因此，该步骤的前向传播与反向传播都非常迅速。

4)三维语义场景补全系统

如图3所示，在得到“语义场景表面”的三维网格之后，要对它进行3D卷积以还原场景的三维结构和对应物体的类别，即三维语义场景补全。该系统包括四个残差块和两个语义补全单元。其中残差块源于“Kaiming He,Xiangyu Zhang,Shaoqing Ren,and JianSun.Deep residual learning for image recognition.In Proceedings of the IEEEconference on computer vision and pattern recognition,pages 770–778,2016.”，包含恒等变换，能够加速收敛和增强网络能力；ASPP结构源于“Liang-Chieh Chen,GeorgePapandreou,Iasonas Kokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:Semanticimage segmentation with deep convolutional nets,atrous convolution,and fullyconnected crfs.IEEE transactions on pattern analysis and machineintelligence,40(4):834–848,2018.”，能同时提取多尺度的特征，增强网络的拟合能力；而1*1的语义补全单元拥有综合多通道信息进行预测的能力，且计算简单。在层间连接部分，四个残差块的输出按通道维度拼接为一个特征图，然后使用1*1卷积的语义补全单元来完成语义场景补全。这样可以迫使每一层结构学到不同的特征，一步一步的补全整个场景。

5)训练整个三阶段的语义场景补全网络

训练网络分为两步：训练图像空间信息提取系统、训练全部语义场景补全系统。前者已经在第(2)部分说明，不再赘述。对于全部语义场景补全系统的训练，本发明先用图像空间信息提取系统训练得到的权重，初始化全部语义场景补全系统，然后利用三维场景结构标签直接端到端的学习。以上两步所用的损失函数都为多类交叉熵损失。

训练完成后，即可输入Depth或RGB-D图像，得到当前场景的语义场景补全。

如图4所示，实施例二：针对RGB-D输入的双分支结构：

为了更好地挖掘和结合RGB和Depth图像中的信息，本发明还提供了两种针对RGB-D输入的双分支结构。一种是在2D语义分割部分融合RGB和Depth，另一种是在3D语义场景补全部分融合RGB和Depth。

1)在图像空间信息提取系统处融合RGB-D

我们使用结构相同、参数不同的图像空间信息提取系统分别处理RGB和Depth，在图像空间信息提取系统的最后一层将两者的特征图按通道维度进行拼接。在其后使用与例一相同的重投影变换系统和三维语义场景补全系统，最终完成三阶段的语义场景补全任务。

该融合方法与例一的区别在于此处使用的是RGB-D输入的图像空间信息提取系统，而例一是使用单一RGB或Depth进行图像空间信息提取。因此，该方法效果更好。

2)在三维语义场景补全系统处融合RGB-D

该融合方法使用两个完全相同结构的三阶段语义场景补全系统分别处理RGB和Depth，得到两个不同输入的语义场景补全结果。在两个三阶段系统的最后，拼接两个特征图，再通过一个1*1的卷积综合最后的语义场景补全结果。

该融合方法更类似于集成学习中的boosting方法，集合了两个弱分类器，得到了一个强分类器。因此，效果好于在图像空间信息提取系统处融合RGB-D，但是时间与内存消耗要更为严重。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还公开了一种语义场景补全系统，其中包括：

该图像编码单元，用于提取输入图像的特征图；

该内参数包括：焦距、感光元件分辨率；

该外参数为该相机坐标系在世界坐标系下的位姿变换。

该系统与方法具有三个优点：1)相比于传统紧耦合、单阶段的语义场景补全方法，该方法能得到更高的补全精度；2)同时，我们针对该三阶段的系统，提出了单分支的RGB-D融合方法和双分支的RGB-D融合方法，并且相比以往系统更具一般性；3)此外，我们还证明了，提高该三阶段系统任一阶段的性能都能提高整体语义场景补全的效果，保证了该方法长久的实用性。本发明能够成功得到当前场景的三维结构和其中物体的语义信息，并且精度好，清晰度高。

Claims

1.一种语义场景补全方法，其特征在于，包括：

2.如权利要求1所述的语义场景补全方法，其特征在于，步骤2中该卷积神经网络包括：图像编码单元和图像解码单元；

该图像编码单元，用于提取输入图像的特征图；

3.如权利要求1所述的语义场景补全方法，其特征在于，步骤3中该相机参数包括相机的内参数和相机的外参数；

该内参数包括：焦距、感光元件分辨率；

该外参数为该相机坐标系在世界坐标系下的位姿变换。

4.如权利要求1所述的语义场景补全方法，其特征在于，该步骤1还包括：对该训练数据进行色度、饱和度和亮度的调整。

5.如权利要求1所述的语义场景补全方法，其特征在于，该待补全图像为由待语义场景补全的彩色图像和其对应的深度图像组成的图像对，该语义分割模型，在像素空间对该图像对进行语义分割，将待语义场景补全的彩色图像和其对应的深度图像，两者语义分割的结果拼接，作为该语义分割结果。

6.一种语义场景补全系统，其特征在于，包括：

7.如权利要求6所述的语义场景补全系统，其特征在于，模型训练模块中该卷积神经网络包括：图像编码单元和图像解码单元；

该图像编码单元，用于提取输入图像的特征图；

8.如权利要求6所述的语义场景补全系统，其特征在于，该相机参数包括相机的内参数和相机的外参数；

该内参数包括：焦距、感光元件分辨率；

该外参数为该相机坐标系在世界坐标系下的位姿变换。

9.如权利要求6所述的语义场景补全系统，其特征在于，该训练数据获取模块还包括：对该训练数据进行色度、饱和度和亮度的调整。

10.如权利要求6所述的语义场景补全系统，其特征在于，该待补全图像为由待语义场景补全的彩色图像和其对应的深度图像组成的图像对，该语义分割模型，在像素空间对该图像对进行语义分割，将待语义场景补全的彩色图像和其对应的深度图像，两者语义分割的结果拼接，作为该语义分割结果。