CN111414923B - 基于单幅rgb图像的室内场景三维重建方法及系统 - Google Patents

基于单幅rgb图像的室内场景三维重建方法及系统 Download PDF

Info

Publication number
CN111414923B
CN111414923B CN202010147114.4A CN202010147114A CN111414923B CN 111414923 B CN111414923 B CN 111414923B CN 202010147114 A CN202010147114 A CN 202010147114A CN 111414923 B CN111414923 B CN 111414923B
Authority
CN
China
Prior art keywords
indoor scene
features
local
plane
dimensional reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010147114.4A
Other languages
English (en)
Other versions
CN111414923A (zh
Inventor
孙克强
缪君
江瑞祥
姚辉
黄仕中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Hangkong University
Original Assignee
Nanchang Hangkong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Hangkong University filed Critical Nanchang Hangkong University
Priority to CN202010147114.4A priority Critical patent/CN111414923B/zh
Publication of CN111414923A publication Critical patent/CN111414923A/zh
Application granted granted Critical
Publication of CN111414923B publication Critical patent/CN111414923B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于单幅RGB图像的室内场景三维重建方法及系统。所述重建方法包括:获取室内场景ScanNet数据集,并对所述ScanNet数据集进行划分,确定训练集以及测试集;利用随机样本一致性RANSAC算法,从所述训练集中重复提取平面,确定室内场景待重建平面;利用局部特征提取分支提取所述室内场景待重建平面的局部特征;所述局部特征提取分支用于提取局部特征;根据所述局部特征以及扩张残差DRN网络确定全局特征;根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型;根据所述室内场景三维重建网络模型重建所述单幅RGB图像的室内场景。采用本发明的重建方法及系统能够提高深度图预测精度、图像边缘重建效果以及室内场景重建精度。

Description

基于单幅RGB图像的室内场景三维重建方法及系统
技术领域
本发明涉及室内场景重建领域,特别是涉及一种基于单幅RGB图像的室内场景三维重建方法及系统。
背景技术
深度学习在三维重建方面起步较晚,但也取得了不错的发展。早在2006年,Saxena等人就开创了一种基于学习的方法,可以从单幅图像中推断出深度图。随着深度神经网络的兴起,大量基于卷积神经网络(Convolutional neural network,CNN)的方法开始涌现了出来。然而,大部分的方法仅是生成一组简单的深度值(如深度图),并没有进行平面的检测和分割,所以重建精度并不高;在2016年,wang等人通过推断平面上的像素来加强平面在深度值及表面法线上的预测,但是他们的方法仅生成了一个二进制的分割掩模(即一个像素是否在平面上),并没有进行平面参数的估计及实例级的平面分割处理;在2018年,一些基于CNN的方法又被提出来,用于直接预测三维平面全局结构;Liu等人提出了一种深度神经网络进行平面参数的估计并对平面内的每一个像素进行掩模处理;Yang和Zhou将三维平面重建问题看成是一个深度预测问题,并提出了一种不需要三维平面真实值的训练方案。之前的方法都是通过训练CNN从单幅图像中直接推断出平面参数和平面实例分割图,并在室内和室外数据集上的测试中都达到了最好的水平;然而,这些方法在一些较为复杂的场景中,重建效果并不太好,因此,在2019年,Liu等人提出了一种使用基于候选区域的实例分割网络及Yu等人提出了一种基于关联嵌入的模型网络用于解决复杂场景下的三维重建问题。
综上所述,基于深度学习的三维重建引起了中外学者的广泛关注。尽管这些基于深度学习的方法取得了不错的研究成果,但自身却也存在着不足:因基于深度学习的方法在进行三维重建时缺少对边缘像素的监督,导致深度图预测精度不高,图像边缘重建效果不佳;另外,因基于深度学习的方法在进行三维重建时没有充分考虑平面内待重建物体的局部信息,使得三维重建表示易丢失平面内物体的细节或忽略小物体的信息。
发明内容
本发明的目的是提供一种基于单幅RGB图像的室内场景三维重建方法及系统,以解决现有的基于深度学习的三维重建方法在进行三维重建时深度图预测精度不高,图像边缘重建效果不佳的问题。
为实现上述目的,本发明提供了如下方案:
一种基于单幅RGB图像的室内场景三维重建方法,包括:
获取室内场景ScanNet数据集,并对所述ScanNet数据集进行划分,确定训练集以及测试集;所述ScanNet数据集包括多张单幅RGB图像;
利用随机样本一致性RANSAC算法,从所述训练集中重复提取平面,确定室内场景待重建平面;
利用局部特征提取分支提取所述室内场景待重建平面的局部特征;所述局部特征提取分支用于提取局部特征;所述局部特征包括边缘轮廓、角点以及线;
根据所述局部特征以及扩张残差DRN网络确定全局特征;所述全局特征包括颜色特征、纹理特征以及形状特征;
根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型;所述室内场景三维重建网络模型包括平面参数预测分支、边缘像素预测分支以及非平面深度图预测分支;所述平面参数预测分支用于确定所述室内场景待重建平面的平面参数,所述平面参数包括法线以及偏移量;所述边缘像素预测分支用于确定分割掩膜;所述非平面深度图预测分支用于确定深度图;
根据所述室内场景三维重建网络模型重建所述单幅RGB图像的室内场景。
可选的,所述根据所述局部特征以及扩张残差网络确定全局特征,之后还包括:
根据公式
Figure BDA0002401158740000021
融合所述局部特征以及所述全局特征,确定融合后的特征图;其中,Zconcat为融合后的特征图;Xi为全局特征;Yi为局部特征;*为卷积;Ki、Ki+c为卷积核;c为特征通道数;i为正整数。
可选的,所述根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型,具体包括:
在平面参数预测分支中,利用全局平均池化,将所述融合后的特征图变换成尺寸为1x1的特征图;
将所述尺寸为1x1的特征图通过所述DRN网络的全连接层,生成尺寸为Kx3的特征图的平面参数;K为预测的平面数量。
可选的,所述根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型,具体包括:
在边缘像素预测分支中,通过金字塔池化模块对所述融合后的特征图进行下采样,确定低于尺寸阈值的融合特征图;
将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层中,利用所述DRN网络的卷积层生成表示平面和非平面的K+1通道的极大似然图;
利用条件随机场对所述极大似然图进行处理,生成分割掩模。
可选的,所述根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型,具体包括:
在非平面深度图预测分支中,所述非平面预测分支和所述边缘像素预测分支共同使用同一个金字塔池化模块,并将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层生成1通道的深度图。
一种基于单幅RGB图像的室内场景三维重建系统,包括:
ScanNet数据集获取模块,用于获取室内场景ScanNet数据集,并对所述ScanNet数据集进行划分,确定训练集以及测试集;所述ScanNet数据集包括多张单幅RGB图像;
室内场景待重建平面确定模块,用于利用随机样本一致性RANSAC算法,从所述训练集中重复提取平面,确定室内场景待重建平面;
局部特征提取模块,用于利用局部特征提取分支提取所述室内场景待重建平面的局部特征;所述局部特征提取分支用于提取局部特征;所述局部特征包括边缘轮廓、角点以及线;
全局特征确定模块,用于根据所述局部特征以及扩张残差DRN网络确定全局特征;所述全局特征包括颜色特征、纹理特征以及形状特征;
室内场景三维重建网络模型构建模块,用于根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型;所述室内场景三维重建网络模型包括平面参数预测分支、边缘像素预测分支以及非平面深度图预测分支;所述平面参数预测分支用于确定所述室内场景待重建平面的平面参数,所述平面参数包括法线以及偏移量;所述边缘像素预测分支用于确定分割掩膜;所述非平面深度图预测分支用于确定深度图;
室内场景重建模块,用于根据所述室内场景三维重建网络模型重建所述单幅RGB图像的室内场景。
可选的,还包括:
融合模块,用于根据公式
Figure BDA0002401158740000041
融合所述局部特征以及所述全局特征,确定融合后的特征图;其中,Zconcat为融合后的特征图;Xi为全局特征;Yi为局部特征;*为卷积;Ki、Ki+c为卷积核;c为特征通道数;i为正整数。
可选的,所述室内场景三维重建网络模型构建模块具体包括:
尺寸变换单元,用于在平面参数预测分支中,利用全局平均池化,将所述融合后的特征图变换成尺寸为1x1的特征图;
平面参数确定单元,用于将所述尺寸为1x1的特征图通过所述DRN网络的全连接层,生成尺寸为Kx3的特征图的平面参数;K为预测的平面数量。
可选的,所述室内场景三维重建网络模型构建模块具体包括:
低于尺寸阈值的融合特征图确定单元,用于在边缘像素预测分支中,通过金字塔池化模块对所述融合后的特征图进行下采样,确定低于尺寸阈值的融合特征图;
极大似然图生成单元,用于将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层中,利用所述DRN网络的卷积层生成表示平面和非平面的K+1通道的极大似然图;
分割掩膜生成单元,用于利用条件随机场对所述极大似然图进行处理,生成分割掩模。
可选的,所述室内场景三维重建网络模型确定模块具体包括:
深度图生成单元,用于在非平面深度图预测分支中,所述非平面预测分支和所述边缘像素预测分支共同使用同一个金字塔池化模块,并将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层生成1通道的深度图。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种基于单幅RGB图像的室内场景三维重建方法及系统,在传统的三维重建网络模型中加入了局部特征提取分支,提取了室内场景待重建平面的局部特征,得到改进后的室内场景三维重建网络模型,使得改进的室内场景三维重建网络模型能够获得更多的空间信息、边缘像素信息及细节特征;所述室内场景三维重建网络模型包括平面参数预测分支、边缘像素预测分支以及非平面深度图预测分支,通过加入边缘像素预测分支提高了对边缘像素的监督,从而提高深度图预测精度以及图像边缘重建效果,通过加入平面参数预测分支以及非平面深度图预测分支能够充分考虑平面内待重建物体的局部信息,使得室内场景三维重建网络模型考虑了平面内物体的细节或小物体的信息,从而提高了室内场景重建精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于单幅RGB图像的室内场景三维重建方法流程图;
图2为本发明所提供的基于单幅RGB图像的室内场景三维重建网络模型的构建流程图;
图3为本发明所提供的局部特征提取分支结构示意图;
图4为本发明所提供的平面参数预测分支结构示意图;
图5为本发明所提供的边缘像素预测分支结构示意图;
图6为本发明所提供的基于单幅RGB图像的室内场景三维重建系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于单幅RGB图像的室内场景三维重建方法及系统,能够提高深度图预测精度以及图像边缘重建效果,充分考虑平面内物体的细节或小物体的信息,提高室内场景重建精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的基于单幅RGB图像的室内场景三维重建方法流程图,如图1所示,一种基于单幅RGB图像的室内场景三维重建方法,包括:
步骤101:获取室内场景ScanNet数据集,并对所述ScanNet数据集进行划分,确定训练集以及测试集;所述ScanNet数据集包括多张单幅RGB图像。
本发明选择目前大规模且具有代表性的室内场景数据集-ScanNet中的单幅图像作为输入,考虑到后续需要做实验验证本发明的可行性及计算机内存限制等因素不可能使用全部数据集,所以对ScanNet数据集中的样本进行划分:从ScanNet数据集中选取51000张图片作为实验样本,其中,选取50000张图像用作训练,1000张图像用作测试。
步骤102:利用随机样本一致性RANSAC算法,从所述训练集中重复提取平面,确定室内场景待重建平面。
具体地,对于相同语义标签的三维网格模型(不同的三维网格模型将不同的网格进行分类),将网格顶点视为点,将网格分成若干称为体素的小格子,将含有顶点的体素合并为一个顶点,将体素相连的顶点重新连接成三角面片,形成新的网格,通过简化网格,减少顶点数量,并通过随机样本一致性(Random Sample Consesue,RANSAC)算法从ScanNet数据集中重复提取平面。
其中,将网格点距离的阈值设为5cm(在平面提取时,距离阈值大于5cm的网格点就舍弃),持续提取平面直到90%的点都被覆盖为止。
另外,如果两个平面的语义标签不同且平面法线之差小于20°(平面可用三维网格模型表示,如用三角网格表示平面),以及大平面(如提取的墙面)拟合小平面(如提取的比墙面小的椅子平面)时平均距离误差小于5cm,就合并这两个平面(将它们放置在同一场景平面中,并不一定相邻)。
如果三个网格顶点拟合同一个平面,就把三个顶点投影到单独的坐标系中,投影完所有的顶点,只保留网格顶点投影区域大于原图面积1%的平面。
如果平面像素覆盖比(像素数量占该平面总像素数量的比例)小于50%,就丢弃该平面。
从ScanNet数据集中随机选取90%的场景,每十帧采样一次,使用RANSAC选出50000个样本作为训练集,从ScanNet剩余的10%场景中选出1000个样本作为测试集;最后,从ScanNet数据集中共选取出51000张图片作为实验样本。
步骤103:利用局部特征提取分支提取所述室内场景待重建平面的局部特征;所述局部特征提取分支用于提取局部特征;所述局部特征包括边缘轮廓、角点、线等。
图2为本发明所提供的基于单幅RGB图像的室内场景三维重建网络模型的构建流程图,如图2所示,基于单幅RGB图像的室内场景三维重建网络模型的构建流程图包括:1、平面参数预测分支(预测平面参数);2、平面分割掩膜分支(预测平面分割掩膜);3、深度预测分支(预测深度图);4、特征提取网络分支(提取局部特征,所述局部特征包括边缘轮廓、角点、线等)。
在局部特征提取网络中,将室内场景待重建平面进行二值化处理,得到局部目标的灰度图像,并将局部目标的灰度图像作为输入,得到待重建平面的边缘轮廓信息。
首先用一个全卷积神经网络生成其多尺度特征图,然后利用一种不变特征的筛选法则获取尺度不变特征,再对特征结合局部图像进行描述,最后探求局部特征与全局特征的融合方法。通过训练将图像的全局特征、局部特征结合使用,以达到提升三维重建精度及恢复场景细节的目的。
通过局部特征提取分支(拟采用传统方法如:HOG特征)对平面内待重建目标的局部特征进行提取,例如目标的待重建平面的边缘轮廓。
构建局部特征提取分支:所述的局部特征提取模块的具体做法是:在局部特征提取网络中,将局部目标的灰度图像作为输入,首先用一个全卷积神经网络生成其多尺度特征图,然后研究一种不变特征的筛选法则获取尺度不变特征,再对特征结合局部图像进行描述,最后探求局部特征与全局特征的融合方法。如此,通过训练将图像的全局特征、局部特征结合使用,以达到提升三维重建精度及恢复场景细节的目的。局部特征提取分支的结构如图3所示。
步骤104:根据所述局部特征以及扩张残差DRN网络确定全局特征;所述全局特征包括颜色特征、纹理特征以及形状特征等。
根据局部特征与扩张残差网络(Dilated Residual Networks,DRN)对将训练集进行处理得到的全局特征,并将局部特征与全局特征进行融合,得到关于输入图像的更加丰富的信息。
融合公式为:
Figure BDA0002401158740000081
Xi、Yi分别表示全局特征和局部特征,*表示卷积,Ki、Ki+c表示卷积核,c表示特征通道数。
步骤105:根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型;所述室内场景三维重建网络模型包括平面参数预测分支、边缘像素预测分支以及非平面深度图预测分支;所述平面参数预测分支用于确定所述室内场景待重建平面的平面参数,所述平面参数包括法线以及偏移量;所述边缘像素预测分支用于确定分割掩膜;所述非平面深度图预测分支用于确定深度图。
构建基于单幅RGB图像室内场景三维重建的网络模型,主要包括平面参数预测分支、边缘像素预测分支、非平面深度图预测分支。
(1)构建平面参数预测分支
构建平面参数预测分支:所述的平面参数预测分支利用解码器模块通过一系列的卷积和反卷积层操作逐渐恢复特征图的空间信息,最后,通过全连接层生成K*3的平面参数,其中K为平面数量,平面参数预测分支的结构如图4所示。
在平面参数分支中,利用全局平均池化,将通过DRN提取到的全局特征和局部特征进行融合,将融合后的特征图的尺寸变为1x1,然后通过DRN网络的全连接层生成Kx3的平面参数(K为预测的平面数量,所得平面参数即为平面参数预测分支输出结果)。
基于倒角距离度量针对平面参数的回归定义一个损失函数,通过对平面参数进行约束(利用真实的平面参数与预测的平面参数的差值),得到较为准确的预测平面参数。
所述平面参数损失函数具体如下:
Figure BDA0002401158740000091
其中,pi是平面上距离相机中心最近的三维坐标点,
Figure BDA0002401158740000092
是真实值,k*是真实平面数量,Lp为平面参数损失,k为最大平面数量,j为平面数量范围。通过平面参数预测分支,得到较为精确的三维平面参数(如法线、偏移量),为后续室内场景的三维重建提供了较为准确的平面信息,有利于提高三维重建的精度。
(2)构建边缘像素预测分支
构建边缘像素预测分支:所述的边缘像素预测模块将特征图通过金字塔池化模块进行池化操作,并通过步长为1*1的卷积层进行卷积操作,其中,卷积模块由一个卷积层、一个最大池化层、一个标准化层组成。
在掩模生成预测分支中,拟加入边缘预测模块,只对实例中固定像素大小区域加入边缘检测,计算预测边缘值和真实边缘值间的差值,并对边缘像素进行相关的平滑操作;固定像素大小的图像来自于上一步经过感受野融合所产生的图像,在此将选择其中某一特定大小的图像,具体大小将根据实验效果来分析和选择;此外,是否需要加入平滑操作,需要根据实验来确定。
计算预测的边缘值和真实边缘值之差的公式是:LP(y,y*)=MP(|y*-y|)p;其中,Lp表示损失函数集,y*表示真实值的边缘,y表示预测的边缘,p表示广义幂的p次幂(当p=2时就等同于深度学习中常用到的均方误差),Mp表示绝对差值;通过不断的训练,从而达到边缘像素监督的目的,进而得到非平面深度图,并利用条件随机场得到精细分割掩模图,边缘像素预测模块的结构如图5所示。
在边缘像素预测分支中,首先输入通过DRN提取到的输入图像的特征图(即全局特征)和局部特征进行融合,确定融合后的特征图,接着通过特征金字塔池化对融合后的特征图进行下采样,得到尺寸较小的融合特征图(减少运算的参数量),然后利用DRN网络的卷积层生成表示平面和非平面的K+1通道的极大似然图,最后利用条件随机场来生成分割掩模(即为边缘像素分支输出结果)。
基于标准的softmax交叉熵损失对生成的分割掩模进行监督训练。
所述平面分割掩模损失函数具体如下:
Figure BDA0002401158740000101
其中,
Figure BDA0002401158740000102
表示像素p属于第i个平面的概率,M*(P)表示像素p的真实平面id,里面的求和是对图像像素(I)进行求和,LM为平面分割掩模损失。通过平面分割掩模损失的约束,得到较为精确的图像分割掩模。
在得到较为准确的平面分割掩模的基础上,拟加入真实边缘像素进行训练,只对实例中固定大小区域加入边缘检测,利用边缘像素损失函数的约束,计算预测边缘像素值和真实像素值间的差值,并对边缘像素进行相关的平滑操作,得到更加精细的平面分割掩模,从而提高室内场景三维重建的精度。
为了得到更加精细的分割掩模,提高生成的分割掩模质量,在分割掩模分成过程中加入边缘像素预测损失函数。
具体的,所述边缘像素预测分支损失函数具体如下:
LP(y,y*)=MP(|y*-y|)p
其中,Lp表示损失函数集,y*表示真实值的边缘,y表示预测的边缘,p表示广义幂的p次幂(当p=2时就等同于深度学习中常用到的均方误差),Mp表示绝对差值,通过不断的训练,从而达到边缘像素监督的目的。
通过边缘像素预测分支,对图像边缘像素施加约束,使得重建的三维模型边缘更加平滑,更符合真实情况,从而有利于提高三维重建的精度。
(3)构建非平面深度图预测分支
在非平面深度图预测分支中,首先输入通过DRN提取到的输入图像的特征图(即全局特征)和局部特征进行融合,确定融合后的特征图。
非平面预测分支和边缘像素预测分支共同使用同一个金字塔池化模块,有效地减少了网络参数的数量;然后,通过DRN网络卷积层生成1通道的深度图(即非平面深度图)。
通过实验发现,使用全部的真实深度图进行训练比单独定义一个非平面区域的损失更奏效,因此,将损失定义为真实深度图与预测平面或非平面间深度深度差的平方和,并由概率加权。
为了得到较为准确的深度图,在边缘像素预测分支中加入了非平面深度图损失函数。
具体的,所述非平面深度图损失函数具体如下:
Figure BDA0002401158740000111
其中,
Figure BDA0002401158740000112
是像素p的深度值,D*(P)是像素的真实值,通过非平面深度图损失函数的约束,对非平面深度图进行更加精确的预测,并结合平面深度图进行三维室内场景的重建,大大提高了三维重建的精度。
通过利用上述步骤生成较为准确的平面参数、精细的平面分割掩模及较为准确的深度图;此外,加入边缘像素预测分支和局部特征提取分支,得到输入图像的更多细节信息。
通过训练总损失:L=Lp+LM+Lp(y,y*)+LD,(Lp:平面参数损失;LM:平面分割掩模损失;Lp(y,y*):边缘像素损失;LD:深度损失)。
通过利用三个分支生成的结果:(1)平面参数预测分支得到的平面参数;(2)边缘像素预测分支得到的精细分割掩模;(3)非平面深度图预测分支得到的深度图。
将图像的全局特征、局部特征结合并利用边缘像素监督,得到关于室内待重建场景更多的空间信息和语义信息,最终得到室内场景的较为精确的三维重建模型,从而达到提升三维重建精度及恢复场景细节的目的。
步骤106:根据所述室内场景三维重建网络模型重建所述单幅RGB图像的室内场景。
图6为本发明所提供的基于单幅RGB图像的室内场景三维重建系统结构图,如图6所示,一种基于单幅RGB图像的室内场景三维重建系统,包括:
ScanNet数据集获取模块601,用于获取室内场景ScanNet数据集,并对所述ScanNet数据集进行划分,确定训练集以及测试集;所述ScanNet数据集包括多张单幅RGB图像。
室内场景待重建平面确定模块602,用于利用随机样本一致性RANSAC算法,从所述训练集中重复提取平面,确定室内场景待重建平面。
局部特征提取模块603,用于利用局部特征提取分支提取所述室内场景待重建平面的局部特征;所述局部特征提取分支用于提取局部特征;所述局部特征包括边缘轮廓、角点、线等。
全局特征确定模块604,用于根据所述局部特征以及扩张残差DRN网络确定全局特征;所述全局特征包括颜色特征、纹理特征以及形状特征等。
室内场景三维重建网络模型构建模块605,用于根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型;所述室内场景三维重建网络模型包括平面参数预测分支、边缘像素预测分支以及非平面深度图预测分支;所述平面参数预测分支用于确定所述室内场景待重建平面的平面参数,所述平面参数包括法线以及偏移量;所述边缘像素预测分支用于确定分割掩膜;所述非平面深度图预测分支用于确定深度图。
室内场景重建模块606,用于根据所述室内场景三维重建网络模型重建所述单幅RGB图像的室内场景。
本发明还包括:融合模块,用于根据公式
Figure BDA0002401158740000131
融合所述局部特征以及所述全局特征,确定融合后的特征图;其中,Zconcat为融合后的特征图;Xi为全局特征;Yi为局部特征;*为卷积;Ki、Ki+c为卷积核;c为特征通道数;i为正整数。
所述室内场景三维重建网络模型构建模块605具体包括:尺寸变换单元,用于在平面参数预测分支中,利用全局平均池化,将所述融合后的特征图变换成尺寸为1x1的特征图;平面参数确定单元,用于将所述尺寸为1x1的特征图通过所述DRN网络的全连接层,生成尺寸为Kx3的特征图的平面参数;K为预测的平面数量。
所述室内场景三维重建网络模型构建模块605具体包括:低于尺寸阈值的融合特征图确定单元,用于在边缘像素预测分支中,通过金字塔池化模块对所述融合后的特征图进行下采样,确定低于尺寸阈值的融合特征图;极大似然图生成单元,用于将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层中,利用所述DRN网络的卷积层生成表示平面和非平面的K+1通道的极大似然图;分割掩膜生成单元,用于利用条件随机场对所述极大似然图进行处理,生成分割掩模。
所述室内场景三维重建网络模型确定模块605具体包括:深度图生成单元,用于在非平面深度图预测分支中,所述非平面预测分支和所述边缘像素预测分支共同使用同一个金字塔池化模块,并将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层生成1通道的深度图。
本发明基于深度学习进行三维重建的基础上,在三维重建参数预测分支中添加了一个合理的解码器网络模块及在掩模生成分支中加入边缘像素监督分支,并在三维重建网络中加入了局部特征提取分支,使得改进的网络能够获得更多的空间信息、边缘像素信息及细节特征。故上述方法可以提升基于单幅RGB图像室内场景的重建精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于单幅RGB图像的室内场景三维重建方法,其特征在于,包括:
获取室内场景ScanNet数据集,并对所述ScanNet数据集进行划分,确定训练集以及测试集;所述ScanNet数据集包括多张单幅RGB图像;
利用随机样本一致性RANSAC算法,从所述训练集中重复提取平面,确定室内场景待重建平面;
构建局部特征提取分支:所述的局部特征提取模块的具体做法是:在局部特征提取网络中,将局部目标的灰度图像作为输入,首先用一个全卷积神经网络生成其多尺度特征图,然后研究一种不变特征的筛选法则获取尺度不变特征,再对特征结合局部图像进行描述,最后探求局部特征与全局特征的融合方法;
利用局部特征提取分支提取所述室内场景待重建平面的局部特征;所述局部特征提取分支用于提取局部特征;所述局部特征包括边缘轮廓、角点以及线;
根据所述局部特征以及扩张残差DRN网络确定全局特征;所述全局特征包括颜色特征、纹理特征以及形状特征;
根据局部特征与扩张残差网络对将训练集进行处理得到的全局特征,并将局部特征与全局特征进行融合,得到关于输入图像的更加丰富的信息;
融合公式为:
Figure FDA0003672031080000011
Xi、Yi分别表示全局特征和局部特征,*表示卷积,Ki、Ki+c表示卷积核,c表示特征通道数;
根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型;所述室内场景三维重建网络模型包括平面参数预测分支、边缘像素预测分支以及非平面深度图预测分支;所述平面参数预测分支用于确定所述室内场景待重建平面的平面参数,所述平面参数包括法线以及偏移量;所述边缘像素预测分支用于确定分割掩膜;所述非平面深度图预测分支用于确定深度图;
在得到较为准确的平面分割掩模的基础上,拟加入真实边缘像素进行训练,只对实例中固定大小区域加入边缘检测,利用边缘像素损失函数的约束,计算预测边缘像素值和真实像素值间的差值,并对边缘像素进行相关的平滑操作,得到更加精细的平面分割掩模;
在分割掩模分成过程中加入边缘像素预测损失函数;
具体的,所述边缘像素预测分支损失函数具体如下:
LP(y,y*)=MP(|y*-y|)p
其中,Lp表示损失函数集,y*表示真实值的边缘,y表示预测的边缘,p表示广义幂的p次幂,Mp表示绝对差值;
根据所述室内场景三维重建网络模型重建所述单幅RGB图像的室内场景。
2.根据权利要求1所述的基于单幅RGB图像的室内场景三维重建方法,其特征在于,所述根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型,具体包括:
在平面参数预测分支中,利用全局平均池化,将所述融合后的特征图变换成尺寸为1x1的特征图;
将所述尺寸为1x1的特征图通过所述DRN网络的全连接层,生成尺寸为Kx3的特征图的平面参数;K为预测的平面数量。
3.根据权利要求2所述的基于单幅RGB图像的室内场景三维重建方法,其特征在于,所述根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型,具体包括:
在边缘像素预测分支中,通过金字塔池化模块对所述融合后的特征图进行下采样,确定低于尺寸阈值的融合特征图;
将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层中,利用所述DRN网络的卷积层生成表示平面和非平面的K+1通道的极大似然图;
利用条件随机场对所述极大似然图进行处理,生成分割掩模。
4.根据权利要求3所述的基于单幅RGB图像的室内场景三维重建方法,其特征在于,所述根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型,具体包括:
在非平面深度图预测分支中,所述非平面深度图预测分支和所述边缘像素预测分支共同使用同一个金字塔池化模块,并将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层生成1通道的深度图。
5.一种基于单幅RGB图像的室内场景三维重建系统,其特征在于,包括:
ScanNet数据集获取模块,用于获取室内场景ScanNet数据集,并对所述ScanNet数据集进行划分,确定训练集以及测试集;所述ScanNet数据集包括多张单幅RGB图像;
室内场景待重建平面确定模块,用于利用随机样本一致性RANSAC算法,从所述训练集中重复提取平面,确定室内场景待重建平面;
构建局部特征提取分支:所述的局部特征提取模块的具体做法是:在局部特征提取网络中,将局部目标的灰度图像作为输入,首先用一个全卷积神经网络生成其多尺度特征图,然后研究一种不变特征的筛选法则获取尺度不变特征,再对特征结合局部图像进行描述,最后探求局部特征与全局特征的融合方法;
局部特征提取模块,用于利用局部特征提取分支提取所述室内场景待重建平面的局部特征;所述局部特征提取分支用于提取局部特征;所述局部特征包括边缘轮廓、角点以及线;
全局特征确定模块,用于根据所述局部特征以及扩张残差DRN网络确定全局特征;所述全局特征包括颜色特征、纹理特征以及形状特征;
根据局部特征与扩张残差网络对将训练集进行处理得到的全局特征,并将局部特征与全局特征进行融合,得到关于输入图像的更加丰富的信息;
融合公式为:
Figure FDA0003672031080000041
Xi、Yi分别表示全局特征和局部特征,*表示卷积,Ki、Ki+c表示卷积核,c表示特征通道数;
室内场景三维重建网络模型构建模块,用于根据所述局部特征以及所述全局特征构建基于单幅RGB图像的室内场景三维重建网络模型;所述室内场景三维重建网络模型包括平面参数预测分支、边缘像素预测分支以及非平面深度图预测分支;所述平面参数预测分支用于确定所述室内场景待重建平面的平面参数,所述平面参数包括法线以及偏移量;所述边缘像素预测分支用于确定分割掩膜;所述非平面深度图预测分支用于确定深度图;
在得到较为准确的平面分割掩模的基础上,拟加入真实边缘像素进行训练,只对实例中固定大小区域加入边缘检测,利用边缘像素损失函数的约束,计算预测边缘像素值和真实像素值间的差值,并对边缘像素进行相关的平滑操作,得到更加精细的平面分割掩模;
在分割掩模分成过程中加入边缘像素预测损失函数;
具体的,所述边缘像素预测分支损失函数具体如下:
LP(y,y*)=MP(|y*-y|)p
其中,Lp表示损失函数集,y*表示真实值的边缘,y表示预测的边缘,p表示广义幂的p次幂,Mp表示绝对差值;
室内场景重建模块,用于根据所述室内场景三维重建网络模型重建所述单幅RGB图像的室内场景。
6.根据权利要求5所述的基于单幅RGB图像的室内场景三维重建系统,其特征在于,所述室内场景三维重建网络模型构建模块具体包括:
尺寸变换单元,用于在平面参数预测分支中,利用全局平均池化,将所述融合后的特征图变换成尺寸为1x1的特征图;
平面参数确定单元,用于将所述尺寸为1x1的特征图通过所述DRN网络的全连接层,生成尺寸为Kx3的特征图的平面参数;K为预测的平面数量。
7.根据权利要求6所述的基于单幅RGB图像的室内场景三维重建系统,其特征在于,所述室内场景三维重建网络模型构建模块具体包括:
低于尺寸阈值的融合特征图确定单元,用于在边缘像素预测分支中,通过金字塔池化模块对所述融合后的特征图进行下采样,确定低于尺寸阈值的融合特征图;
极大似然图生成单元,用于将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层中,利用所述DRN网络的卷积层生成表示平面和非平面的K+1通道的极大似然图;
分割掩膜生成单元,用于利用条件随机场对所述极大似然图进行处理,生成分割掩模。
8.根据权利要求7所述的基于单幅RGB图像的室内场景三维重建系统,其特征在于,所述室内场景三维重建网络模型确定模块具体包括:
深度图生成单元,用于在非平面深度图预测分支中,所述非平面深度图预测分支和所述边缘像素预测分支共同使用同一个金字塔池化模块,并将所述低于尺寸阈值的融合特征图输入到所述DRN网络的卷积层生成1通道的深度图。
CN202010147114.4A 2020-03-05 2020-03-05 基于单幅rgb图像的室内场景三维重建方法及系统 Expired - Fee Related CN111414923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010147114.4A CN111414923B (zh) 2020-03-05 2020-03-05 基于单幅rgb图像的室内场景三维重建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010147114.4A CN111414923B (zh) 2020-03-05 2020-03-05 基于单幅rgb图像的室内场景三维重建方法及系统

Publications (2)

Publication Number Publication Date
CN111414923A CN111414923A (zh) 2020-07-14
CN111414923B true CN111414923B (zh) 2022-07-12

Family

ID=71494246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010147114.4A Expired - Fee Related CN111414923B (zh) 2020-03-05 2020-03-05 基于单幅rgb图像的室内场景三维重建方法及系统

Country Status (1)

Country Link
CN (1) CN111414923B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991515B (zh) * 2021-02-26 2022-08-19 山东英信计算机技术有限公司 一种三维重建方法、装置及相关设备
CN112907736B (zh) * 2021-03-11 2022-07-15 清华大学 基于隐式场的十亿像素场景人群三维重建方法和装置
CN113706543A (zh) * 2021-08-18 2021-11-26 北京达佳互联信息技术有限公司 一种三维位姿的构建方法、设备及存储介质
CN115115691A (zh) * 2022-06-28 2022-09-27 五邑大学 单目三维平面恢复方法、设备及存储介质
CN115619709B (zh) * 2022-08-30 2023-07-04 哈尔滨工业大学(深圳) 一种3d平面检测与重建方法、装置及存储介质
CN115409819B (zh) * 2022-09-05 2024-03-29 苏州埃米迈德医疗科技有限公司 一种肝部图像重建方法以及重建系统
CN117011466B (zh) * 2023-08-08 2024-03-29 苏州三垣航天科技有限公司 一种基于分段平面算法的三维重建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578435A (zh) * 2017-09-11 2018-01-12 清华-伯克利深圳学院筹备办公室 一种图像深度预测方法及装置
CN109255833A (zh) * 2018-09-30 2019-01-22 宁波工程学院 基于语义先验和渐进式优化宽基线致密三维场景重建方法
CN109360232A (zh) * 2018-09-10 2019-02-19 南京邮电大学 基于条件生成对抗网络的室内场景布局估计方法和装置
CN110458939A (zh) * 2019-07-24 2019-11-15 大连理工大学 基于视角生成的室内场景建模方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012012943A1 (en) * 2010-07-28 2012-02-02 Shenzhen Institute Of Advanced Technology Chinese Academy Of Sciences Method for reconstruction of urban scenes
US10373380B2 (en) * 2016-02-18 2019-08-06 Intel Corporation 3-dimensional scene analysis for augmented reality operations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578435A (zh) * 2017-09-11 2018-01-12 清华-伯克利深圳学院筹备办公室 一种图像深度预测方法及装置
CN109360232A (zh) * 2018-09-10 2019-02-19 南京邮电大学 基于条件生成对抗网络的室内场景布局估计方法和装置
CN109255833A (zh) * 2018-09-30 2019-01-22 宁波工程学院 基于语义先验和渐进式优化宽基线致密三维场景重建方法
CN110458939A (zh) * 2019-07-24 2019-11-15 大连理工大学 基于视角生成的室内场景建模方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
An Interactive Approach to Semantic Modeling of Indoor Scenes with an RGBD Camera;Tianjia Shao等;《ACM Transactions on Graphics》;20121130;1-10 *
Neural Inverse Rendering of an Indoor Scene From a Single Image;Soumyadip Sengupta等;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;20200227;8597-8606 *
PlaneNet: Piece-Wise Planar Reconstruction from a Single RGB Image;Chen Liu等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181117;2579-2588 *
PlaneRCNN: 3D Plane Detection and Reconstruction from a Single Image;Chen Liu等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;4445-4454 *
基于卷积神经网络的图像三维重构技术研究;万潇潇;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20191215;I138-624 *
基于深度学习的单目图像深度估计的研究进展;李阳等;《激光与光电子学进展》;20190508;9-25 *

Also Published As

Publication number Publication date
CN111414923A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111414923B (zh) 基于单幅rgb图像的室内场景三维重建方法及系统
Poullis A framework for automatic modeling from point cloud data
CN110059768B (zh) 用于街景理解的融合点与区域特征的语义分割方法及系统
CN110059698B (zh) 用于街景理解的基于边缘稠密重建的语义分割方法及系统
CN112001960B (zh) 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
Chen et al. I2uv-handnet: Image-to-uv prediction network for accurate and high-fidelity 3d hand mesh modeling
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN110322495A (zh) 一种基于弱监督深度学习的场景文本分割方法
CN111598998A (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
Hu et al. Structure‐aware 3D reconstruction for cable‐stayed bridges: A learning‐based method
CN109934843B (zh) 一种实时的轮廓精细化抠像方法及存储介质
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN114187310A (zh) 基于八叉树和PointNet++网络的大规模点云分割方法
CN113177592A (zh) 一种图像分割方法、装置、计算机设备及存储介质
CN115587987A (zh) 一种蓄电池缺陷检测方法、装置、存储介质及电子设备
CN115937546A (zh) 图像匹配、三维图像重建方法、装置、电子设备以及介质
CN117496347A (zh) 遥感影像建筑物提取方法、装置及介质
CN114782417A (zh) 基于边缘强化图像分割的风机数字孪生特征实时检测方法
Zhang et al. Towards unbiased volume rendering of neural implicit surfaces with geometry priors
CN111696167A (zh) 自范例学习引导的单张影像超分辨率重构方法
CN116645514A (zh) 一种改进U2-Net的瓷砖表面缺陷分割方法
CN116758219A (zh) 基于神经网络的区域感知多视角立体匹配三维重建方法
Lin et al. A-SATMVSNet: An attention-aware multi-view stereo matching network based on satellite imagery
Xia et al. A Deep Learning Application for Building Damage Assessment Using Ultra-High-Resolution Remote Sensing Imagery in Turkey Earthquake
CN115830317A (zh) 基于极坐标转换的U-Net增强注意模块的皮肤癌图像分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220712

CF01 Termination of patent right due to non-payment of annual fee