CN110660128A - 一种基于生成对抗网络的三维语义场景重建方法 - Google Patents
一种基于生成对抗网络的三维语义场景重建方法 Download PDFInfo
- Publication number
- CN110660128A CN110660128A CN201910900112.5A CN201910900112A CN110660128A CN 110660128 A CN110660128 A CN 110660128A CN 201910900112 A CN201910900112 A CN 201910900112A CN 110660128 A CN110660128 A CN 110660128A
- Authority
- CN
- China
- Prior art keywords
- data
- dimensional
- data set
- rgbd
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本申请属于计算机技术领域,尤其涉及一种基于生成对抗网络的三维语义场景重建方法。由深度图作为输入的三维卷积网络是目前生成三维语义场景最为有效的一类方法。但是在实际应用场景中,存在深度图不完整的情况,同时在语义分割上未考虑对象颜色、纹理信息等问题,导致输出的三维语义场景不真实、甚至重建失败。为了解决此类问题,本申请提供一种基于生成对抗网络的三维语义场景重建方法,生成对抗网络有效提高三维场景重建的准确率,同时生成模型减小对原始输入信号的依赖,因此可以适应实例场景中不具备深度相机的情况。本申请具有更广泛的适用性,鲁棒性好并且准确度较高。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于生成对抗网络的三维语义场景重建方法。
背景技术
目前的三维语义场景重建方法大致可以分为基于数据点云的三维重建方法和基于图像的三维重建方法。由于基于数据点云的重建方法成本昂贵,基于图像的三维重建方法相对廉价,成为了研究热点。早期的技术通常以二维图像作为输入,重建出场景中的三维模型。但是,受限于输入的数据视角遮挡等因素影响,重建出的三维模型通常不够完整,而且真实感较低。随着各种面向普通消费者的深度相机(depth camera)的出现,基于深度相机的三维扫描和重建技术得到飞速发展。在基于深度数据的三维重建方面,KinectFusion首开先河,但是在通过ICP(Iterative ClosestPoint)求解变换矩阵相机位姿后,并没有对位姿进行进一步优化。而经典的SLAM(simultaneous location and mapping)算法对轨迹的优化通常采用滤波器预测或图优化的方法,计算复杂度较高。ElasticFusion为了避免图优化带来复杂的计算量,而使用快速的几何光度一致性优化来简单地优化相机姿态参数。其他先前的工作集中在单个物体进行3D补全,要将这些方法应用于完整的场景,需要额外的分割或对象蒙版。对于场景补全,当缺失区域相对较小时,可以应用使用平面拟合或对象对称的方法来填充孔,这些方法严重依赖于几何的规律性,并且当缺失区域较大时,容易导致补全失败。
语义分割的主要任务是对图像进行逐像素标记。基于深度学习的语义分割主要包含两种方法,基于图像的二维语义分割和基于体积的三维语义分割。前者利用图像的密集像素来达到较高的分割精度,而后者试图通过挖掘几何体素信息来实现语义分割。二维语义分割由于卷积神经网络的出现,目前由深度学习进行图像语义分割得到了质的飞跃,无论是准确率还是效率都远超传统方式。然而三维语义分割方面,许多先前的工作都集中在对RGB-D图像进行分割上面。其中FCN是奠基之作,全卷积的网络中的下采样导致位置敏感性较差,边缘准确性不高,只能计算出目标对象的轮廓。DeepLab针对FCN的这一特点,将DenseCRF(dense conditional random field)应用于基于卷积网络的输出结果,这些方法仅仅考虑对观测到的表面像素进行语义分割,而不考虑对象的完整形状,因此这种方法不能直接执行场景补全或预测可见表面之外的标签。
尽管三维场景重建与图像语义分割作为两个不同的领域,其内在依然存在着一定的关联,Song et al.提出将场景补全和语义分割两个任务结合起来则,其论文所建立的SSCNet,通过输入单幅的深度图像,输出了带语义信息的三维体素。虽然这种方法同时完成语义分割和三维重建任务并显着改善了结果,但3D CNN成倍增长的参数量则限制了输入图像分辨率和网络深度,从而限制了其性能。其后Yu.通过将原始深度图进行特征投影,使得输入的三维体素尺度降低,从而节省了运行所需的内存并有效的提升了运行效率,然而这种方法由于部分特征的丢失,使得最终准确率有所下降。因此,Jia et al.提出通过对深度图进行随机采样的方法,将采样结果以哈希表的形式存储,然后将采样结果同时输入多个3DSCN网络中进行计算,并且多个3DSCN之间共享参数,得到多个三维场景,最后将多个场景进行耦合,输出完整的三维语义场景。
由深度图作为输入的三维卷积网络是目前生成三维语义场景最为有效的一类方法。但是在实际应用场景中,存在作为输入的深度图不完整的情况,同时在语义分割上未考虑对象颜色、纹理信息等问题,导致输出的三维语义场景不真实、甚至重建失败。
发明内容
本申请提供了一种基于生成对抗网络的三维语义场景重建方法,以解决生成三维语义场景严重依赖深度图以及输出的三维语义场景不真实的问题。
本申请采用的技术方案如下:
一种基于生成对抗网络的三维语义场景重建方法,包括以下步骤:
获取SUNCG-RGBD数据集,并对SUNCG-RGBD数据集进行降采样生成降采样数据集;
对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据;
根据深度图编码数据、RGB图像编码数据以及体素真值编码数据,生成生成器G、场景鉴别器Dvoxel以及编码鉴别器Dencode;
根据生成器G、场景鉴别器Dvoxel以及编码鉴别器Dencode构建生成模型损失函数lgen、场景鉴别模型损失函数ldis-v以及编码鉴别模型损失函数ldis-e;
根据生成模型损失函数、场景鉴别模型损失函数以及编码鉴别模型损失函数,构建目标函数L(G),
根据目标函数L(G),在SUNCG-RGBD数据集中选取数据进行训练与测试,并将结果进行算数平均。
可选的,所述SUNCG-RGBD数据集包括带有稠密对象标签的三维场景RGBD图像数据以及固定相机姿态所拍摄的RGBD图像数据。
可选的,在所述获取SUNCG-RGBD数据集,并对SUNCG-RGBD数据集进行降采样生成降采样数据集的步骤中,包括:
对SUNCG-RGBD数据集中像素为640*480的RGBD图像数据进行降采样,获得像素为320*240的降采样数据集。
可选的,在根据目标函数L(G),在SUNCG-RGBD数据集中选取数据进行训练与测试,并将结果进行算数平均的步骤中,包括:
将SUNCG-RGBD数据集等分为20份,每次训练前从这20份数据子集中随机选取4份数据子集作为测试集,剩余的16份数据子集作为训练集,并进行10次训练,将10次训练的结果进行算术平均,得到最终值。
可选的,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,所述编码通过编码器进行,所述编码器是一个连续的网络结构包括了6组2D卷积层与池化层对,通过leaky ReLU激活函数处理并输出为多通道的2D图像数据,最终输出为5*3*80的特征图数据,然后对该特征图数据进行重塑,得到5*3*5*16的3D特征向量。
可选的,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,包括:
通过2D-CNN对所述采样数据集中的RGBD图像数据进行语义分割,所述语义分割在Resnet50的基础上进行微调,将最后的softmax层替换为全连接层,最终输出一个1200维的张量,重塑该张量,得到5*3*5*16的3D特征向量。
可选的,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,包括:
通过编码器对所述采样数据集中的体素真值进行编码,生成的所有层均为3D卷积层,卷积核为3*3*3,步幅为2*2*2,最终输出一个1200维的张量,重塑该张量,得到5*3*5*16的3D特征向量。
可选的,所述生成器G由4个3D反卷积层构成,卷积核为3*3*3,步幅为2*2*2,卷积之后由ReLU激活函数进行激活,经过4次反卷积层后,生成器的输出结果是体素分类预测结果,其维度为80*48*80*12。
可选的,所述场景鉴别器Dvoxel最后一层通过用softmax层替代reshape层从而输出一个二进制值,用于确定预测的体积数据是否属于预期的体积值。
可选的,所述编码鉴别器通过reshape层将5*3*5*16的3D特征向量重塑为1200维的特征向量,其后由3个全连接层构成其输出维度分别为256、128、1,最后通过softmax层输出预测结果。
采用本申请的技术方案的有益效果如下:
本申请提供的基于生成对抗网络的三维语义场景重建方法,对于由2维图像恢复其场景空间信息很有效,对不同的输入信号都具有很好的鲁棒性,在实现三维场景重建的同时能够给出场景中对象的具体分类,并且能保证运算的实时性。其中,生成对抗网络不仅可以有效的提高三维场景重建的准确率,同时生成模型可以减小对原始输入信号的依赖,实现由单一RGB图像或者单一深度图生成三维语义场景的目的,因此可以适应实例场景中绝大多数个体用户拍摄设备不具备深度相机的情况。因此,本申请具有更广泛的适用性,鲁棒性好并且准确度较高。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的流程框图;
图2为本申请实施例的三维语义地图生成示意图;
图3为本申请实施例的鉴别器生成示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
参见图1与图2,以便于理解本实施例提供的一种基于生成对抗网络的三维语义场景重建方法,包括以下步骤:
S101,获取SUNCG-RGBD数据集,并对SUNCG-RGBD数据集进行降采样生成降采样数据集;
S102,对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据;
S103,根据深度图编码数据、RGB图像编码数据以及体素真值编码数据,生成生成器G、场景鉴别器Dvoxel以及编码鉴别器Dencode;
S104,根据生成器G、场景鉴别器Dvoxel以及编码鉴别器Dencode构建生成模型损失函数lgen、场景鉴别模型损失函数ldis-v以及编码鉴别模型损失函数ldis-e;
S105,根据生成模型损失函数、场景鉴别模型损失函数以及编码鉴别模型损失函数,构建目标函数L(G),
S106,根据目标函数L(G),在SUNCG-RGBD数据集中选取数据进行训练与测试,并将结果进行算数平均。
其中Ni为场景中不同类别数,y为预测值,t为体素真值,σ(a,b)为交叉熵。
ldis-v=-log(Dvoxel(t))-log(l-Dvoxel(y))
其中y=G(x,t)
ldis-e=-log(Dencode(tvoxel))-log(1-Dencode(ydepth))-log(1-Dencode(yRGB))
可选的,所述SUNCG-RGBD数据集包括带有稠密对象标签的三维场景RGBD图像数据以及固定相机姿态所拍摄的RGBD图像数据。
可选的,在所述获取SUNCG-RGBD数据集,并对SUNCG-RGBD数据集进行降采样生成降采样数据集的步骤中,包括:
对SUNCG-RGBD数据集中像素为640*480的RGBD图像数据进行降采样,获得像素为320*240的降采样数据集。
可选的,在根据目标函数L(G),在SUNCG-RGBD数据集中选取数据进行训练与测试,并将结果进行算数平均的步骤中,包括:
将SUNCG-RGBD数据集等分为20份,每次训练前从这20份数据子集中随机选取4份数据子集作为测试集,剩余的16份数据子集作为训练集,并进行10次训练,将10次训练的结果进行算术平均,得到最终值。
可选的,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,所述编码通过编码器进行,所述编码器是一个连续的网络结构包括了6组2D卷积层与池化层对,通过leaky ReLU激活函数处理并输出为多通道的2D图像数据,最终输出为5*3*80的特征图数据,然后对该特征图数据进行重塑,得到5*3*5*16的3D特征向量。
参见图3,本实施例中,编码器Edep网络结构为:
CML(16,3)-CML(32,3)-CML(64,3)-CML(64,3)-CML(128,3)-CML(256,3)-R
其中:C是指2d卷积层,M是指最大池化层,L是指激活函数层LReLU,R是指重塑层,且括号中的第一个数字表示卷积通道数,第二个数字表示卷积核的大小。
编码器Ergb网络结构为:
ResNet50-FL(9600)-FL(3200)-FL(1200)
其中ResNet50由于网络结构较大不作展开,F是指全连接层,L是指激活函数LReLU,且括号中的数字表示全连接层输出维度。
编码器Evoxel网络结构为:
CL(4,3)-CL(8,3)-CL(16,3)-CL(32,3)-R
其中:C是指3d卷积层,L是指激活函数层LReLU,R是指重塑层,且括号中的第一个数字表示卷积通道数,第二个数字表示卷积核的大小。
所述激活函数层定义为:
生成器G网络结构为:
DL(128,3)-DL(64,3)-DL(32,3)-DL(16,3)
其中:D是指3d反卷积层,L是指激活函数层ReLU。
可选的,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,包括:
通过2D-CNN对所述采样数据集中的RGBD图像数据进行语义分割,所述语义分割在Resnet50的基础上进行微调,将最后的softmax层替换为全连接层,最终输出一个1200维的张量,重塑该张量,得到5*3*5*16的3D特征向量。
可选的,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,包括:
通过编码器对所述采样数据集中的体素真值进行编码,生成的所有层均为3D卷积层,卷积核为3*3*3,步幅为2*2*2,最终输出一个1200维的张量,重塑该张量,得到5*3*5*16的3D特征向量。
可选的,所述生成器G由4个3D反卷积层构成,卷积核为3*3*3,步幅为2*2*2,卷积之后由ReLU激活函数进行激活,经过4次反卷积层后,生成器的输出结果是体素分类预测结果,其维度为80*48*80*12。
生成器G网络结构为:
DL(128,3)-DL(64,3)-DL(32,3)-DL(16,3)
其中:D是指3d反卷积层,L是指激活函数层ReLU。
可选的,所述场景鉴别器Dvoxel最后一层通过用softmax层替代reshape层从而输出一个二进制值,用于确定预测的体积数据是否属于预期的体积值。
鉴别器Dvoxel网络结构为:
R-CL(4,3)-CL(8,3)-CL(16,3)-CL(32,3)-R-F(256)-F(128)-F(64)-S
其中:C是指3d卷积层,L是指激活函数层ReLU,且括号中的第一个数字表示卷积通道数,第二个数字表示卷积核的大小;R是指重塑层,F是指全连接层,S是指softmax层,且括号中的数字表示全连接层输出维度。
所述激活函数层定义为:
可选的,所述编码鉴别器通过reshape层将5*3*5*16的3D特征向量重塑为1200维的特征向量,其后由3个全连接层构成其输出维度分别为256、128、1,最后通过softmax层输出预测结果。
鉴别器Dencode网络结构为:
R-F(256)-F(128)-F(64)-S
其中:R是指重塑层,F是指全连接层,S是指softmax层,且括号中的数字表示全连接层输出维度。
所述softmax层定义为:
采用本申请技术方案进行的实验如下:
使用SUNCG与NYU提供的配对的RGBD图像与带语义标签的体素作为实验所用的数据集。其中带语义标签的体素大小为240*144*240*No,这里No为场景中对象的类别数,我们实验中的12个对象类基于SUNCG,包括:空的空间,天花板,地板,墙壁,窗户,门,椅子,床,沙发,桌子,家具和小物件。输入尺寸由于受到GPU内存大小限制,我们通过maxpool ing进行降采样处理,其中maxpooling的核为3*3*3,步长为3*3*3。采样后体素尺度为80*48*80*No。以这种方式将原始体积数据压缩至具有较低分辨率的空间中,使其适用于在具有不超过12GB内存的单个GPU中进行训练。这里,我们使用单个NVIDIA TITAN Xp进行训练,批量大小设置为8。同样的,输入的RGB图像与深度图也通过双线性差值由640*480降采样至320*240进行训练。
评价指标及实验结果:
实验基于IoU(intersection over union)与预测体素标签的平均精度mAP来评估我们生成的三维场景的效果。对于语义场景补全任务,我们评估每一个体素所属的对象类的IoU,而其中mAP则是基于预测体素标签与体素真值标签计算的。为了评估我们的实验效果,我们选择Shuran Song等人的SSCNET与Xin Tong等人的VVNet做比较。
实验结果一:
基于SUNCG数据集,以SUNCG-RGBD原始数据集进行切分,得到的9:1的训练集与测试集。其Iou结果如下:
Empty | Ceil | Floor | Wall | Win | Door | Chair | Bed | Sofa | table | furn | objs | Avg | |
SSCNET | 49.3 | 26.1 | 33.2 | 29.7 | 14.4 | 4.6 | 0.7 | 16.4 | 13.9 | 0.0 | 0.0 | 0.0 | 30.8 |
VVNET | 49.3 | 32.6 | 37.7 | 36.0 | 23.6 | 13.6 | 8.7 | 20.3 | 16.7 | 9.6 | 0.2 | 3.6 | 36.1 |
Ours | 49.6 | 41.4 | 37.7 | 45.8 | 26.5 | 26.4 | 21.8 | 25.4 | 23.7 | 20.1 | 16.2 | 5.7 | 44.1 |
其mAP结果如下:
Empty | Ceil | Floor | Wall | Win | Door | Chair | Bed | Sofa | table | furn | objs | Avg | |
SSCNET | 99.6 | 18.8 | 68.9 | 63.6 | 25.0 | 8.5 | 4.2 | 16.4 | 9.5 | 1.3 | 0.4 | 2.6 | 65.6 |
VVNET | 99.9 | 21.5 | 76.2 | 78.8 | 31.9 | 15.3 | 8.1 | 18.7 | 10.2 | 2.9 | 1.4 | 4.3 | 79.4 |
Ours | 99.9 | 28.6 | 70.3 | 91.5 | 28.3 | 18.8 | 9.1 | 20.2 | 12.7 | 2.6 | 4.9 | 2.6 | 90.1 |
实验结果二:
基于NYU数据集,以NYU原始数据集进行切分,得到的7:3的训练集与测试集。其Iou结果如下:
Empty | Ceil | Floor | Wall | Win | Door | Chair | Bed | Sofa | table | furn | objs | Avg | |
SSCNET | 49.4 | 33.3 | 25.3 | 32.4 | 16.9 | 9.3 | 5.6 | 19.2 | 14.7 | 1.1 | 0.0 | 0.0 | 31.5 |
VVNET | 49.6 | 42.4 | 35.8 | 44.4 | 29.2 | 24.8 | 17.2 | 30.6 | 24.2 | 19.5 | 11.5 | 4.4 | 42.4 |
Ours | 49.7 | 43.9 | 37.3 | 45.9 | 26.7 | 29.2 | 20.1 | 24.0 | 24.6 | 26.1 | 19.8 | 9.0 | 44.3 |
其mAP结果如下:
Empty | Ceil | Floor | Wall | Win | Door | Chair | Bed | Sofa | table | furn | objs | Avg | |
SSCNET | 99.9 | 27.3 | 67.5 | 87.6 | 27.0 | 15.8 | 8.0 | 19.2 | 12.0 | 2.2 | 3.4 | 1.8 | 86.5 |
VVNET | 100.0 | 28.9 | 72.1 | 92.7 | 29.6 | 19.8 | 9.9 | 20.8 | 13.3 | 2.7 | 6.6 | 2.9 | 91.9 |
Ours | 100.0 | 29.2 | 76.8 | 94.5 | 31.9 | 22.6 | 11.5 | 21.9 | 14.2 | 3.2 | 8.2 | 4.1 | 94.8 |
实验表明,本发明提供的所述基于生成对抗网络的三维语义场景重建方法相比于现有方法在所有量化指标上都取得了显著的提升。
本申请提供的基于生成对抗网络的三维语义场景重建方法,对于由二维图像恢复其场景空间信息很有效,对不同的输入信号都具有很好的鲁棒性,在实现三维场景重建的同时能够给出场景中对象的具体分类,并且能保证运算的实时性。其中,生成对抗网络不仅可以有效的提高三维场景重建的准确率,同时生成模型可以减小对原始输入信号的依赖,实现由单一RGB图像或者单一深度图生成三维语义场景的目的,因此可以适应实例场景中绝大多数个体用户拍摄设备不具备深度相机的情况。因此,本申请具有更广泛的适用性,鲁棒性好并且准确度较高。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (10)
1.一种基于生成对抗网络的三维语义场景重建方法,其特征在于,包括以下步骤:
获取SUNCG-RGBD数据集,并对SUNCG-RGBD数据集进行降采样生成降采样数据集;
对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据;
根据深度图编码数据、RGB图像编码数据以及体素真值编码数据,生成生成器G、场景鉴别器Dvoxel以及编码鉴别器Dencode;
根据生成器G、场景鉴别器Dvoxel以及编码鉴别器Dencode构建生成模型损失函数lgen、场景鉴别模型损失函数ldis-v以及编码鉴别模型损失函数ldis-e;
根据生成模型损失函数、场景鉴别模型损失函数以及编码鉴别模型损失函数,构建目标函数L(G),
根据目标函数L(G),在SUNCG-RGBD数据集中选取数据进行训练与测试,并将结果进行算数平均。
2.根据权利要求1所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,所述SUNCG-RGBD数据集包括带有稠密对象标签的三维场景RGBD图像数据以及固定相机姿态所拍摄的RGBD图像数据。
3.根据权利要求1所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,在所述获取SUNCG-RGBD数据集,并对SUNCG-RGBD数据集进行降采样生成降采样数据集的步骤中,包括:
对SUNCG-RGBD数据集中像素为640*480的RGBD图像数据进行降采样,获得像素为320*240的降采样数据集。
4.根据权利要求1所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,在根据目标函数L(G),在SUNCG-RGBD数据集中选取数据进行训练与测试,并将结果进行算数平均的步骤中,包括:
将SUNCG-RGBD数据集等分为20份,每次训练前从这20份数据子集中随机选取4份数据子集作为测试集,剩余的16份数据子集作为训练集,并进行10次训练,将10次训练的结果进行算术平均,得到最终值。
5.根据权利要求1所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,所述编码通过编码器进行,所述编码器是一个连续的网络结构包括了6组2D卷积层与池化层对,通过leaky ReLU激活函数处理并输出为多通道的2D图像数据,最终输出为5*3*80的特征图数据,然后对该特征图数据进行重塑,得到5*3*5*16的3D特征向量。
6.根据权利要求1所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,包括:
通过2D-CNN对所述采样数据集中的RGBD图像数据进行语义分割,所述语义分割在Resnet50的基础上进行微调,将最后的softmax层替换为全连接层,最终输出一个1200维的张量,重塑该张量,得到5*3*5*16的3D特征向量。
7.根据权利要求1所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,在所述对降采样数据集进行编码,生成深度图编码数据、RGB图像编码数据以及体素真值编码数据的步骤中,包括:
通过编码器对所述采样数据集中的体素真值进行编码,生成的所有层均为3D卷积层,卷积核为3*3*3,步幅为2*2*2,最终输出一个1200维的张量,重塑该张量,得到5*3*5*16的3D特征向量。
8.根据权利要求5所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,所述生成器G由4个3D反卷积层构成,卷积核为3*3*3,步幅为2*2*2,卷积之后由ReLU激活函数进行激活,经过4次反卷积层后,生成器的输出结果是体素分类预测结果,其维度为80*48*80*12。
9.根据权利要求6所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,所述场景鉴别器Dvoxel最后一层通过用softmax层替代reshape层从而输出一个二进制值,用于确定预测的体积数据是否属于预期的体积值。
10.根据权利要求7所述的基于生成对抗网络的三维语义场景重建方法,其特征在于,所述编码鉴别器通过reshape层将5*3*5*16的3D特征向量重塑为1200维的特征向量,其后由3个全连接层构成其输出维度分别为256、128、1,最后通过softmax层输出预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900112.5A CN110660128B (zh) | 2019-09-23 | 2019-09-23 | 一种基于生成对抗网络的三维语义场景重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900112.5A CN110660128B (zh) | 2019-09-23 | 2019-09-23 | 一种基于生成对抗网络的三维语义场景重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110660128A true CN110660128A (zh) | 2020-01-07 |
CN110660128B CN110660128B (zh) | 2023-08-11 |
Family
ID=69038816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910900112.5A Active CN110660128B (zh) | 2019-09-23 | 2019-09-23 | 一种基于生成对抗网络的三维语义场景重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110660128B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259264A (zh) * | 2020-01-15 | 2020-06-09 | 电子科技大学 | 一种基于生成对抗网络的时序评分预测方法 |
CN111311611A (zh) * | 2020-02-17 | 2020-06-19 | 清华大学深圳国际研究生院 | 一种实时三维大场景多对象实例分割的方法 |
CN111738058A (zh) * | 2020-05-07 | 2020-10-02 | 华南理工大学 | 基于生成对抗网络的针对生物模板保护的重构攻击方法 |
CN112037138A (zh) * | 2020-07-29 | 2020-12-04 | 大连理工大学 | 一种单张深度图点云场景语义补全的方法 |
CN114049444A (zh) * | 2022-01-13 | 2022-02-15 | 深圳市其域创新科技有限公司 | 一种3d场景生成方法及装置 |
CN117095136A (zh) * | 2023-10-19 | 2023-11-21 | 中国科学技术大学 | 一种基于3d gan的多物体和多属性的图像重建和编辑方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006120352A1 (fr) * | 2005-05-12 | 2006-11-16 | Kabire Fidaali | Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique |
CN107862293A (zh) * | 2017-09-14 | 2018-03-30 | 北京航空航天大学 | 基于对抗生成网络的雷达生成彩色语义图像系统及方法 |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN108182657A (zh) * | 2018-01-26 | 2018-06-19 | 深圳市唯特视科技有限公司 | 一种基于循环生成对抗网络的面部图像转换方法 |
CN108537743A (zh) * | 2018-03-13 | 2018-09-14 | 杭州电子科技大学 | 一种基于生成对抗网络的面部图像增强方法 |
CN109215123A (zh) * | 2018-09-20 | 2019-01-15 | 电子科技大学 | 基于cGAN的无限地形生成方法、系统、存储介质和终端 |
CN109447923A (zh) * | 2018-09-27 | 2019-03-08 | 中国科学院计算技术研究所 | 一种语义场景补全系统与方法 |
CN109544666A (zh) * | 2018-10-26 | 2019-03-29 | 中国科学院计算技术研究所 | 一种全自动的模型变形传播方法和系统 |
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
CN109815223A (zh) * | 2019-01-21 | 2019-05-28 | 北京科技大学 | 一种针对工业监测数据缺失的补全方法及补全装置 |
CN109949222A (zh) * | 2019-01-30 | 2019-06-28 | 北京交通大学 | 基于语义图的图像超分辨率重建方法 |
CN109948796A (zh) * | 2019-03-13 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 自编码器学习方法、装置、计算机设备及存储介质 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
-
2019
- 2019-09-23 CN CN201910900112.5A patent/CN110660128B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006120352A1 (fr) * | 2005-05-12 | 2006-11-16 | Kabire Fidaali | Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique |
US20090077113A1 (en) * | 2005-05-12 | 2009-03-19 | Kabire Fidaali | Device and method for semantic analysis of documents by construction of n-ary semantic trees |
CN107862293A (zh) * | 2017-09-14 | 2018-03-30 | 北京航空航天大学 | 基于对抗生成网络的雷达生成彩色语义图像系统及方法 |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN108182657A (zh) * | 2018-01-26 | 2018-06-19 | 深圳市唯特视科技有限公司 | 一种基于循环生成对抗网络的面部图像转换方法 |
CN108537743A (zh) * | 2018-03-13 | 2018-09-14 | 杭州电子科技大学 | 一种基于生成对抗网络的面部图像增强方法 |
CN109215123A (zh) * | 2018-09-20 | 2019-01-15 | 电子科技大学 | 基于cGAN的无限地形生成方法、系统、存储介质和终端 |
CN109447923A (zh) * | 2018-09-27 | 2019-03-08 | 中国科学院计算技术研究所 | 一种语义场景补全系统与方法 |
CN109544666A (zh) * | 2018-10-26 | 2019-03-29 | 中国科学院计算技术研究所 | 一种全自动的模型变形传播方法和系统 |
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
CN109815223A (zh) * | 2019-01-21 | 2019-05-28 | 北京科技大学 | 一种针对工业监测数据缺失的补全方法及补全装置 |
CN109949222A (zh) * | 2019-01-30 | 2019-06-28 | 北京交通大学 | 基于语义图的图像超分辨率重建方法 |
CN109948796A (zh) * | 2019-03-13 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 自编码器学习方法、装置、计算机设备及存储介质 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
Non-Patent Citations (2)
Title |
---|
刘立强: "基于深度学习的视觉三维重建研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
范宝杰 等: "基于余项机制生成对抗网络的图像修复方法", 《电视技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259264A (zh) * | 2020-01-15 | 2020-06-09 | 电子科技大学 | 一种基于生成对抗网络的时序评分预测方法 |
CN111259264B (zh) * | 2020-01-15 | 2021-11-16 | 电子科技大学 | 一种基于生成对抗网络的时序评分预测方法 |
CN111311611A (zh) * | 2020-02-17 | 2020-06-19 | 清华大学深圳国际研究生院 | 一种实时三维大场景多对象实例分割的方法 |
CN111311611B (zh) * | 2020-02-17 | 2023-04-18 | 清华大学深圳国际研究生院 | 一种实时三维大场景多对象实例分割的方法 |
CN111738058A (zh) * | 2020-05-07 | 2020-10-02 | 华南理工大学 | 基于生成对抗网络的针对生物模板保护的重构攻击方法 |
CN111738058B (zh) * | 2020-05-07 | 2023-04-25 | 华南理工大学 | 基于生成对抗网络的针对生物模板保护的重构攻击方法 |
CN112037138A (zh) * | 2020-07-29 | 2020-12-04 | 大连理工大学 | 一种单张深度图点云场景语义补全的方法 |
CN114049444A (zh) * | 2022-01-13 | 2022-02-15 | 深圳市其域创新科技有限公司 | 一种3d场景生成方法及装置 |
CN117095136A (zh) * | 2023-10-19 | 2023-11-21 | 中国科学技术大学 | 一种基于3d gan的多物体和多属性的图像重建和编辑方法 |
CN117095136B (zh) * | 2023-10-19 | 2024-03-29 | 中国科学技术大学 | 一种基于3d gan的多物体和多属性的图像重建和编辑方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110660128B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110660128A (zh) | 一种基于生成对抗网络的三维语义场景重建方法 | |
Liu et al. | Meshdiffusion: Score-based generative 3d mesh modeling | |
Li et al. | Pu-gan: a point cloud upsampling adversarial network | |
Fu et al. | Single image 3D object reconstruction based on deep learning: A review | |
Sitzmann et al. | Deepvoxels: Learning persistent 3d feature embeddings | |
Mao et al. | Interpolated convolutional networks for 3d point cloud understanding | |
US10885659B2 (en) | Object pose estimating method and apparatus | |
US9736455B2 (en) | Method and apparatus for downscaling depth data for view plus depth data compression | |
Xu et al. | Multi-scale geometric consistency guided and planar prior assisted multi-view stereo | |
Guo et al. | Neural deformable voxel grid for fast optimization of dynamic view synthesis | |
Sridhar et al. | Multiview aggregation for learning category-specific shape reconstruction | |
WO2018162406A1 (en) | Quality metric for point clouds | |
US20210377507A1 (en) | Method and apparatus for processing data for three-dimensional image | |
Cheng et al. | Gaussianpro: 3d gaussian splatting with progressive propagation | |
WO2013178725A1 (en) | Segmentation of a foreground object in a 3d scene | |
CN114998515B (zh) | 一种基于多视角图像的3d人体自监督重建方法 | |
CN113850900A (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
Lin et al. | High-fidelity and real-time novel view synthesis for dynamic scenes | |
Xie et al. | End-to-end point cloud geometry compression and analysis with sparse tensor | |
Blomqvist et al. | Baking in the feature: Accelerating volumetric segmentation by rendering feature maps | |
Shaw et al. | Swags: Sampling windows adaptively for dynamic 3d gaussian splatting | |
Sun et al. | Efficient ray sampling for radiance fields reconstruction | |
Dehnavi et al. | Cost and power efficient FPGA based stereo vision system using directional graph transform | |
Frisky et al. | Investigation of single image depth prediction under different lighting conditions: A case study of ancient Roman coins | |
Arranz et al. | Multiresolution energy minimisation framework for stereo matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |